PYSPARK - UDF (Nutzerdefinierte Funktion anwenden

PYSPARK - UDF (Nutzerdefinierte Funktion anwenden ⇐ Python

1 post • Page 1 of 1

Anonymous

PYSPARK - UDF (Nutzerdefinierte Funktion anwenden

Report
Quote

Post by Anonymous » 25 Feb 2025, 10:50

Ich bin ziemlich neu im PySpark, obwohl häufiger Benutzer von Pandas usw. < /p>
Ich habe einen Spark -Datenrahmen, der aus Spalten besteht: ID, Trajektorie, Typ < /p>
wobei die ID eine Ganzzahl ist, Trajektorie ist eine Liste von Datenframe-Reihen, die die Koordinateninformation enthalten, und der Typ ist eine Liste von Zeichenfolgen < /p>
Das Ziel ist zu, Zeichnen Sie für jede ID eine Polylinie in einer Python-Folium-Map, basierend auf den Koordinaten in der Trajektorienspalte. >

Code: Select all

df.first()

erzeugt das folgende Ergebnis

Code: Select all

Row(ID=209223000, Trajectory=[Row(Timestamp=datetime.datetime(2024, 11, 1, 2, 58, 29), Latitude=55.108018, Longitude=18.306343, Destination='Unknown'), Row(Timestamp=datetime.datetime(2024, 11, 1, 6, 18, 18), Latitude=55.115625, Longitude=18.103083, Destination='Unknown')], types=['Undefined'])
< /code>
Um klar zu sein, muss ich keinen zusätzlichen Spalte zum DataFrame hinzufügen, und keine Einwände, wenn dies erforderlich ist. < /p>
Also würde der Pseudo etwas aussehen, das das ist: < /p>
create map-object m

For each Row in df:
create polyline object ply
ply.coordinates = [item.Lat,item.Long] for item in Row['Trajectory']
ply.tooltip = Row['ID'] + Row[types]
add ply to m
< /code>
Das Endziel besteht darin, die Spuren von Objekten zu präsentieren, abhängig von bestimmten Filtern, die im DataFrame < /p>
angewendet werden. Der beschriebene Pseudocode, aber ich kann meinen Kopf nicht darum einwickeln, wie man den UDF anwendet, da ein UDF eher auf eine Spalte als auf einen Datenrahmen angewendet wird. Polylines zum MAP-Objekt basierend auf jeder Zeile des Datenrahmens, z. Jede einzelne ID.|-- ID: integer (nullable = true)
|-- Trajectory: array (nullable = false)
|    |-- element: struct (containsNull = false)
|    |    |-- Timestamp: timestamp (nullable = true)
|    |    |-- Latitude: double (nullable = true)
|    |    |-- Longitude: double (nullable = true)
|    |    |-- Destination: string (nullable = true)
|-- types: array (nullable = false)
|    |-- element: string (containsNull = false)
< /code>
Ein Snapshot (komprimiert) der Daten: < /p>
+---------+--------------------+--------------------+
|     ID  |          Trajectory|               types|
+---------+--------------------+--------------------+
|209223000|[{2024-11-01 02:5...|         [Undefined]|
|209508000|[{2024-11-01 08:2...| [Tanker, Undefined]|
|209864000|[{2024-11-01 14:4...|[Passenger, Undef...|
|210095000|[{2024-11-01 08:2...|[Passenger, Undef...|
|210350000|[{2024-11-01 00:0...|         [Undefined]|
+---------+--------------------+--------------------+

1740477037

Anonymous

Ich bin ziemlich neu im PySpark, obwohl häufiger Benutzer von Pandas usw. < /p>
Ich habe einen Spark -Datenrahmen, der aus Spalten besteht: ID, Trajektorie, Typ < /p>
wobei die ID eine Ganzzahl ist, Trajektorie ist eine Liste von Datenframe-Reihen, die die Koordinateninformation enthalten, und der Typ ist eine Liste von Zeichenfolgen < /p>
Das Ziel ist zu, Zeichnen Sie für jede ID eine Polylinie in einer Python-Folium-Map, basierend auf den Koordinaten in der Trajektorienspalte. >[code]df.first()[/code] erzeugt das folgende Ergebnis 
[code]Row(ID=209223000, Trajectory=[Row(Timestamp=datetime.datetime(2024, 11, 1, 2, 58, 29), Latitude=55.108018, Longitude=18.306343, Destination='Unknown'), Row(Timestamp=datetime.datetime(2024, 11, 1, 6, 18, 18), Latitude=55.115625, Longitude=18.103083, Destination='Unknown')], types=['Undefined'])
< /code>
Um klar zu sein, muss ich keinen zusätzlichen Spalte zum DataFrame hinzufügen, und keine Einwände, wenn dies erforderlich ist. < /p>
Also würde der Pseudo etwas aussehen, das das ist: < /p>
create map-object m

For each Row in df:
create polyline object ply
ply.coordinates = [item.Lat,item.Long] for item in Row['Trajectory']
ply.tooltip = Row['ID'] + Row[types]
add ply to m
< /code>
Das Endziel besteht darin, die Spuren von Objekten zu präsentieren, abhängig von bestimmten Filtern, die im DataFrame < /p>
angewendet werden. Der beschriebene Pseudocode, aber ich kann meinen Kopf nicht darum einwickeln, wie man den UDF anwendet, da ein UDF eher auf eine Spalte als auf einen Datenrahmen angewendet wird. Polylines zum MAP-Objekt basierend auf jeder Zeile des Datenrahmens, z. Jede einzelne ID.|-- ID: integer (nullable = true)
|-- Trajectory: array (nullable = false)
|    |-- element: struct (containsNull = false)
|    |    |-- Timestamp: timestamp (nullable = true)
|    |    |-- Latitude: double (nullable = true)
|    |    |-- Longitude: double (nullable = true)
|    |    |-- Destination: string (nullable = true)
|-- types: array (nullable = false)
|    |-- element: string (containsNull = false)
< /code>
Ein Snapshot (komprimiert) der Daten: < /p>
+---------+--------------------+--------------------+
|     ID  |          Trajectory|               types|
+---------+--------------------+--------------------+
|209223000|[{2024-11-01 02:5...|         [Undefined]|
|209508000|[{2024-11-01 08:2...| [Tanker, Undefined]|
|209864000|[{2024-11-01 14:4...|[Passenger, Undef...|
|210095000|[{2024-11-01 08:2...|[Passenger, Undef...|
|210350000|[{2024-11-01 00:0...|         [Undefined]|
+---------+--------------------+--------------------+
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

So führen Sie Pyspark UDF separat über Datenrahmengruppen aus

Last post by Anonymous « 13 Jan 2026, 11:20
Posted in Python

by Anonymous » 13 Jan 2026, 11:20 » in Python

Gruppieren eines Pyspark-Datenrahmens, Anwenden der Zeitreihenanalyse-UDF auf jede Gruppe

GELÖST Siehe unten

Ich habe einen Pyspark-Prozess, der einen Zeitreihen-Datenrahmen für einen Standort...

0 Replies

1 Views

Last post by Anonymous
13 Jan 2026, 11:20
Adaptivigger anwenden nicht visualstate setzer anwenden

Last post by Guest « 07 Feb 2025, 03:55
Posted in C#

by Guest » 07 Feb 2025, 03:55 » in C#

Ich habe eine Winui3 -Anwendung, die drei Grenzen hat und ich möchte reagieren. Wenn die Fenstergröße weniger als 600 beträgt, befinden sich die Grenzen in einer Spalte und größer als die Grenzen in...

0 Replies

49 Views

Last post by Guest
07 Feb 2025, 03:55
Adaptivigger anwenden nicht visualstate setzer anwenden

Last post by Guest « 10 Feb 2025, 02:34
Posted in C#

by Guest » 10 Feb 2025, 02:34 » in C#

Ich habe eine Winui3 -Anwendung, die drei Grenzen hat und ich möchte reagieren. Wenn die Fenstergröße weniger als 600 beträgt, befinden sich die Grenzen in einer Spalte und größer als die Grenzen in...

0 Replies

52 Views

Last post by Guest
10 Feb 2025, 02:34
Gibt es eine Möglichkeit, eine JSON-Datei aus einer API-Anfrage mithilfe einer UDF in einer Tabelle in Snowflake zu spei

Last post by Guest « 31 Dec 2024, 15:36
Posted in Python

by Guest » 31 Dec 2024, 15:36 » in Python

Ich versuche, eine JSON-Datei, die ich von einer API-Anfrage erhalte, als Snowflake-Tabelle zu speichern
Ich habe eine UDF erstellt und kann die Antwortdaten abrufen Über die API habe ich versucht,...

0 Replies

64 Views

Last post by Guest
31 Dec 2024, 15:36
Ist Python UDF in Spark immer noch ineffizient?

Last post by Guest « 11 Jan 2025, 08:37
Posted in Python

by Guest » 11 Jan 2025, 08:37 » in Python

Ich lese das Buch Spark: „The Definitive Guide: Big Data Processing Made Simple“, das 2018 herauskam, und jetzt schreiben wir das Jahr 2023. In dem Buch wurde also erwähnt, dass die Verwendung von...

0 Replies

39 Views

Last post by Guest
11 Jan 2025, 08:37

Return to “Python”