So führen Sie Pyspark UDF separat über Datenrahmengruppen aus

So führen Sie Pyspark UDF separat über Datenrahmengruppen aus ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

So führen Sie Pyspark UDF separat über Datenrahmengruppen aus

Report
Quote

Post by Anonymous » 13 Jan 2026, 11:20

Gruppieren eines Pyspark-Datenrahmens, Anwenden der Zeitreihenanalyse-UDF auf jede Gruppe

GELÖST Siehe unten

Ich habe einen Pyspark-Prozess, der einen Zeitreihen-Datenrahmen für einen Standort verwendet und Funktionen zur Anomalieerkennung berechnet/hinzufügt. Fensterfunktionen werden verwendet, um führende und nacheilende Lesevorgänge zu vergleichen, und es werden Aggregate wie Mittelwert, Median und Standardabweichung verwendet.
Dies führt jeweils eine Site aus, aber ich würde dies gerne über einen einzelnen großen Datenrahmen ausführen, der Daten für viele Sites enthält, wobei die Funktionen separat auf jede Gruppe des Datenrahmens angewendet werden und ein einzelner geänderter Datenrahmen zurückgegeben wird.

Code: Select all

# Illustrative functions
window = Window.partitionBy("Site").orderBy("DateTime").rowsBetween(-2, 0)
val_mean = df.agg(mean("Value")).collect()[0][0]

df = df.withColumn("NewCol", col("Value") - val_mean)
df = df.withColumn("rolling_mean", avg(col("Value")).over(window))

Ich habe versucht, For-Schleifen und Pandas für Skalierbarkeit und Parallelverarbeitung zu vermeiden, habe aber mit PySpark nicht den richtigen Weg gefunden, dies zu tun.
Welche Optionen gibt es hier?
(Laufen auf Azure Databricks, falls das wichtig ist)
Beispiel für gewünschtes Verhalten

Site
DateTime
Value
NewCol
rolling_mean

A
01.04.2026
1
-0,8
null

A
01.05.2026
2
-0.2
null

A
06/01/2026
3
1.2

01.08.2026
2
0,2
0,2

B
01.03.2026
4
-6.4
null

B
04/01/2026
5
-5.4
null

B
01.05.2026
34
23,6
3,93

B
01.06.2026
5
-5,4
4,26

B
01.07.2026
4
-6.4
3.93

GELÖST
Die Leistung von Pandas war viel schlechter als die der reinen Pyspark-Implementierung und führte zu zusätzlicher Komplexität des Ausführungsplans (was zu Fehlern auf einigen Clustern führte, z. B. Serverless).
Die Verwendung von „concurrent.futures“ ermöglichte die Anwendung bestehender Funktionen mit minimalen Anpassungen und die Ausführungsleistung war um ein Vielfaches schneller als die Pandas-Implementierung.

Code: Select all

# Divide task across workers
with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor: 
   results = {executor.submit(anomaly_func, raw_df.filter(raw_df.Id == key)) for key in IdList}

# Union the results dataframe
df = None
for r in results:
   df = r.result()
   if df is None:
       df = df
   else:
       df = df.union(df)

1768299648

Anonymous

Gruppieren eines Pyspark-Datenrahmens, Anwenden der Zeitreihenanalyse-UDF auf jede Gruppe

[b]GELÖST[/b] Siehe unten

Ich habe einen Pyspark-Prozess, der einen Zeitreihen-Datenrahmen für einen Standort verwendet und Funktionen zur Anomalieerkennung berechnet/hinzufügt. Fensterfunktionen werden verwendet, um führende und nacheilende Lesevorgänge zu vergleichen, und es werden Aggregate wie Mittelwert, Median und Standardabweichung verwendet.
Dies führt jeweils eine Site aus, aber ich würde dies gerne über einen einzelnen großen Datenrahmen ausführen, der Daten für viele Sites enthält, wobei die Funktionen separat auf jede Gruppe des Datenrahmens angewendet werden und ein einzelner geänderter Datenrahmen zurückgegeben wird.
[code]# Illustrative functions
window = Window.partitionBy("Site").orderBy("DateTime").rowsBetween(-2, 0)
val_mean = df.agg(mean("Value")).collect()[0][0]

df = df.withColumn("NewCol", col("Value") - val_mean)
df = df.withColumn("rolling_mean", avg(col("Value")).over(window))
[/code]
Ich habe versucht, For-Schleifen und Pandas für Skalierbarkeit und Parallelverarbeitung zu vermeiden, habe aber mit PySpark nicht den richtigen Weg gefunden, dies zu tun.
Welche Optionen gibt es hier?
(Laufen auf Azure Databricks, falls das wichtig ist)
Beispiel für gewünschtes Verhalten



Site
DateTime
Value
NewCol
rolling_mean




A
01.04.2026
1
-0,8
[i]null[/i]


A
01.05.2026
2
-0.2
[i]null[/i]


A
06/01/2026
3
1.2

01.08.2026
2
0,2
0,2


B
01.03.2026
4
-6.4
[i]null[/i]


B
04/01/2026
5
-5.4
[i]null[/i]


B
01.05.2026
34
23,6
3,93


B
01.06.2026
5
-5,4
4,26


B
01.07.2026
4
-6.4
3.93



[b]GELÖST[/b]
Die Leistung von Pandas war viel schlechter als die der reinen Pyspark-Implementierung und führte zu zusätzlicher Komplexität des Ausführungsplans (was zu Fehlern auf einigen Clustern führte, z. B. Serverless).
Die Verwendung von „concurrent.futures“ ermöglichte die Anwendung bestehender Funktionen mit minimalen Anpassungen und die Ausführungsleistung war um ein Vielfaches schneller als die Pandas-Implementierung.
[code]# Divide task across workers
with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor: 
   results = {executor.submit(anomaly_func, raw_df.filter(raw_df.Id == key)) for key in IdList}

# Union the results dataframe
df = None
for r in results:
   df = r.result()
   if df is None:
       df = df
   else:
       df = df.union(df)
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

PYSPARK - UDF (Nutzerdefinierte Funktion anwenden

Last post by Anonymous « 25 Feb 2025, 10:50
Posted in Python

by Anonymous » 25 Feb 2025, 10:50 » in Python

Ich bin ziemlich neu im PySpark, obwohl häufiger Benutzer von Pandas usw.
Ich habe einen Spark -Datenrahmen, der aus Spalten besteht: ID, Trajektorie, Typ
wobei die ID eine Ganzzahl ist,...

0 Replies

10 Views

Last post by Anonymous
25 Feb 2025, 10:50
Wie kann man in Keras mehrere Verlustfunktionen separat optimieren?

Last post by Guest « 07 Jan 2025, 05:37
Posted in Python

by Guest » 07 Jan 2025, 05:37 » in Python

Ich versuche derzeit, in Keras ein Deep-Learning-Modell mit drei verschiedenen Verlustfunktionen zu erstellen. Die erste Verlustfunktion ist der typische mittlere quadratische Fehlerverlust. Die...

0 Replies

23 Views

Last post by Guest
07 Jan 2025, 05:37
Wie kann ich separat auf die Ergebnisse des Ergebniss zugreifen und die Ergebnisdaten in Codesigniter -Daten?

Last post by Anonymous « 03 Mar 2025, 02:59
Posted in Php

by Anonymous » 03 Mar 2025, 02:59 » in Php

Ich habe eine Ansichtsdatei, die 2 Mal ein Foreach verwendet. Das erste Mal funktioniert, aber der zweite Foreach macht nichts.

0 Replies

36 Views

Last post by Anonymous
03 Mar 2025, 02:59
Erstellen und führen Sie ein Docker -Bild für Java -Anwendung mit Paketen aus und führen Sie sie aus

Last post by Anonymous « 24 Feb 2025, 12:17
Posted in Java

by Anonymous » 24 Feb 2025, 12:17 » in Java

Ich habe es geschafft, ein Docker -Image für eine einfache Hello World Java -Konsolenanwendung einzurichten und auszuführen, aber ich kämpfe damit, wenn ich Pakete hinzufüge.
Ich habe das...

0 Replies

46 Views

Last post by Anonymous
24 Feb 2025, 12:17
So installieren und führen Sie cx_freeze aus und führen Sie aus

Last post by Anonymous « 29 Apr 2025, 14:06
Posted in Python

by Anonymous » 29 Apr 2025, 14:06 » in Python

Ich habe den Befehl PIP-Installation CX Freeze ausgeführt, um eine ausführbare Datei für meine Stromanmeldung zu erstellen. Ich kann die Datei cx_freeze nach der Installation jedoch nicht finden....

0 Replies

49 Views

Last post by Anonymous
29 Apr 2025, 14:06

Return to “Python”