Wie reproduziere ich die Spark-Hash-Funktion mit Python?

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Wie reproduziere ich die Spark-Hash-Funktion mit Python?

by Guest » 03 Jan 2025, 19:00

Spark verwendet den Murmur3-Algorithmus, um den Hash-Wert zu berechnen. Ich habe versucht, mit diesem Python-basierten mmh3-Paket einen Hash zu erzeugen, aber es erzeugt einen anderen Hash-Wert als Spark.
Ich habe viele relevante Fragen zum Hash-Algorithmus von Spark gelesen, aber ich tue es immer noch nicht Ich weiß nicht, wie man denselben Hash-Wert in reinem Python erhält.
  • Welcher Hash-Algorithmus wird in pyspark.sql.functions.hash verwendet?
  • Hash-Funktion in spark
  • Scala MurmurHash3-Bibliothek passt nicht zur Spark-Hash-Funktion

Top