Spark-Streaming mit Python: Wie füge ich eine UUID-Spalte hinzu?Python

Python-Programme
Anonymous
 Spark-Streaming mit Python: Wie füge ich eine UUID-Spalte hinzu?

Post by Anonymous »

Ich möchte meinem Datenrahmen eine Spalte mit einer generierten ID hinzufügen. Ich habe versucht:

Code: Select all

uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())
Wenn ich das mache, wird jedoch nichts in mein Ausgabeverzeichnis geschrieben. Wenn ich diese Zeilen entferne, funktioniert alles einwandfrei, es muss also ein Fehler vorliegen, aber ich sehe nichts in der Konsole.

Ich habe versucht, monotonically_increasing_id() zu verwenden, anstatt eine UUID zu generieren, aber in meinen Tests führt dies zu vielen Duplikaten. Ich benötige eine eindeutige Kennung (muss nicht speziell eine UUID sein).

Wie kann ich das machen?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post