Code: Select all
uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())
Ich habe versucht, monotonically_increasing_id() zu verwenden, anstatt eine UUID zu generieren, aber in meinen Tests führt dies zu vielen Duplikaten. Ich benötige eine eindeutige Kennung (muss nicht speziell eine UUID sein).
Wie kann ich das machen?
Mobile version