Parallelisieren von REST-API-Anfragen in Databricks ⇐ Python
-
Anonymous
Parallelisieren von REST-API-Anfragen in Databricks
Ich habe eine Liste von IDs und möchte für jede der IDs eine Get-Anfrage an eine REST-API stellen und die Ergebnisse in einem Datenrahmen speichern. Wenn ich die Liste durchlaufe, dauert das viel zu lange, deshalb habe ich versucht, mit ThreadPoolExecutor zu parallelisieren, was die Ausführungszeit erheblich verkürzt hat. Aber dann las ich über Pandas UDFs und RDDs und fragte mich, ob ich meinen Ansatz noch weiter verbessern könnte. Da ich mit beiden noch nie wirklich gearbeitet habe, kann ich nicht sagen, welcher Ansatz für meinen Anwendungsfall der beste ist. Die Ansätze, über die ich nachgedacht habe, waren rdds, ein Pandas-UDF, das die ID-Spalte als Pandas-Serie als Eingabe verwendet und eine Pandas-Serie der resultierenden JSONs zurückgibt, und ein Pandas-UDF, das den Iterator der Pandas-Serie als Eingabe verwendet (was genau ist der Unterschied zwischen der Verwendung von Iterator und Serie?). Oder ist es möglich, den gesamten Datenrahmen als Eingabe für die Pandas-UDF zu verwenden und das gewünschte Ergebnis df zurückzugeben? Weiß jemand, was die beste Vorgehensweise für meinen Anwendungsfall wäre, und könnte die Ansätze etwas näher erläutern?
-
- Similar Topics
- Replies
- Views
- Last post
-
-
Parallel einer Liste der nachfolgenden API -Aufrufe in Python parallelisieren
by Anonymous » » in Python - 0 Replies
- 39 Views
-
Last post by Anonymous
-
Mobile version