Page 1 of 1

Wie reproduziere ich die Spark-Hash-Funktion mit Python?

Posted: 03 Jan 2025, 19:00
by Guest
Spark verwendet den Murmur3-Algorithmus, um den Hash-Wert zu berechnen. Ich habe versucht, mit diesem Python-basierten mmh3-Paket einen Hash zu erzeugen, aber es erzeugt einen anderen Hash-Wert als Spark.
Ich habe viele relevante Fragen zum Hash-Algorithmus von Spark gelesen, aber ich tue es immer noch nicht Ich weiß nicht, wie man denselben Hash-Wert in reinem Python erhält.
  • Welcher Hash-Algorithmus wird in pyspark.sql.functions.hash verwendet?
  • Hash-Funktion in spark
  • Scala MurmurHash3-Bibliothek passt nicht zur Spark-Hash-Funktion