Parallelisieren von REST-API-Anfragen in Databricks

Parallelisieren von REST-API-Anfragen in Databricks ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Parallelisieren von REST-API-Anfragen in Databricks

Report
Quote

Post by Anonymous » 17 Jan 2026, 08:22

Ich habe eine Liste von IDs und möchte für jede der IDs eine Get-Anfrage an eine REST-API stellen und die Ergebnisse in einem Datenrahmen speichern. Wenn ich die Liste durchlaufe, dauert das viel zu lange, deshalb habe ich versucht, mit ThreadPoolExecutor zu parallelisieren, was die Ausführungszeit erheblich verkürzt hat. Aber dann las ich über Pandas UDFs und RDDs und fragte mich, ob ich meinen Ansatz noch weiter verbessern könnte. Da ich mit beiden noch nie wirklich gearbeitet habe, kann ich nicht sagen, welcher Ansatz für meinen Anwendungsfall der beste ist. Die Ansätze, über die ich nachgedacht habe, waren rdds, ein Pandas-UDF, das die ID-Spalte als Pandas-Serie als Eingabe verwendet und eine Pandas-Serie der resultierenden JSONs zurückgibt, und ein Pandas-UDF, das den Iterator der Pandas-Serie als Eingabe verwendet (was genau ist der Unterschied zwischen der Verwendung von Iterator und Serie?). Oder ist es möglich, den gesamten Datenrahmen als Eingabe für die Pandas-UDF zu verwenden und das gewünschte Ergebnis df zurückzugeben? Weiß jemand, was die beste Vorgehensweise für meinen Anwendungsfall wäre, und könnte die Ansätze etwas näher erläutern?

1768634523

Anonymous

Ich habe eine Liste von IDs und möchte für jede der IDs eine Get-Anfrage an eine REST-API stellen und die Ergebnisse in einem Datenrahmen speichern. Wenn ich die Liste durchlaufe, dauert das viel zu lange, deshalb habe ich versucht, mit ThreadPoolExecutor zu parallelisieren, was die Ausführungszeit erheblich verkürzt hat. Aber dann las ich über Pandas UDFs und RDDs und fragte mich, ob ich meinen Ansatz noch weiter verbessern könnte. Da ich mit beiden noch nie wirklich gearbeitet habe, kann ich nicht sagen, welcher Ansatz für meinen Anwendungsfall der beste ist. Die Ansätze, über die ich nachgedacht habe, waren rdds, ein Pandas-UDF, das die ID-Spalte als Pandas-Serie als Eingabe verwendet und eine Pandas-Serie der resultierenden JSONs zurückgibt, und ein Pandas-UDF, das den Iterator der Pandas-Serie als Eingabe verwendet (was genau ist der Unterschied zwischen der Verwendung von Iterator und Serie?). Oder ist es möglich, den gesamten Datenrahmen als Eingabe für die Pandas-UDF zu verwenden und das gewünschte Ergebnis df zurückzugeben? Weiß jemand, was die beste Vorgehensweise für meinen Anwendungsfall wäre, und könnte die Ansätze etwas näher erläutern?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Parallel einer Liste der nachfolgenden API -Aufrufe in Python parallelisieren

Last post by Anonymous « 27 Jan 2025, 11:14
Posted in Python

by Anonymous » 27 Jan 2025, 11:14 » in Python

Ich habe Code, der einige Dateien durchläuft und dann nachfolgende Aufrufe an eine „Kette“ mehrerer APIs unter Verwendung von Inhalten aus jeder Datei durchführt, wobei jede API zum Ausführen die...

0 Replies

39 Views

Last post by Anonymous
27 Jan 2025, 11:14
Wie stape ich API -Anfragen in MS Project Online REST -API, um die Leistung zu optimieren?

Last post by Anonymous « 25 Feb 2025, 11:19
Posted in C#

by Anonymous » 25 Feb 2025, 11:19 » in C#

Hintergrund :

arbeite mit der Online -REST -API von MS Project, um Aufgaben und deren entsprechende Aufgabenverbindungen für ein bestimmtes Projekt abzurufen. Derzeit mache ich individuelle API...

0 Replies

34 Views

Last post by Anonymous
25 Feb 2025, 11:19
Microsoft Fabric REST API – So rufen Sie die REST API auf, ohne Zugriff auf Workspace zu gewähren

Last post by Guest « 03 Jan 2025, 09:36
Posted in Python

by Guest » 03 Jan 2025, 09:36 » in Python

Ich verwende eine App-Registrierung, um mich über ein Python-Skript bei der Microsoft Fabric REST API zu authentifizieren.
Dazu habe ich die folgenden Schritte ausgeführt:

Ich habe eine Anwendung...

0 Replies

91 Views

Last post by Guest
03 Jan 2025, 09:36
Wie kann ich FFMPEG -SETPTS -Filter bei der Verwendung von GPU parallelisieren?

Last post by Anonymous « 28 Feb 2025, 08:45
Posted in Python

by Anonymous » 28 Feb 2025, 08:45 » in Python

Wir haben einen langen Python -Code, der das Video in mehrere Teile einbricht und die Geschwindigkeit mithilfe von SetPTs -Filter .
ändertimport ffmpeg
ffmpeg.input(segment_path).filter( setpts , f...

0 Replies

36 Views

Last post by Anonymous
28 Feb 2025, 08:45
Bereitstellen von MMCV/MMDet auf Databricks – GLIBC_2.32 nicht gefunden

Last post by Guest « 07 Jan 2025, 13:26
Posted in Python

by Guest » 07 Jan 2025, 13:26 » in Python

Ich versuche, das MMDetection-Modell auf Databricks Serving (auf Azure) zu hosten. Das Modell ist auf 15,4 LTS ML trainiert. Während der Aktualisierung des Bereitstellungsendpunkts wird jedoch...

0 Replies

39 Views

Last post by Guest
07 Jan 2025, 13:26

Return to “Python”