PYSPARK -Programm hängen beim Hinzufügen von Broadcast -Stück fest

PYSPARK -Programm hängen beim Hinzufügen von Broadcast -Stück fest ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

PYSPARK -Programm hängen beim Hinzufügen von Broadcast -Stück fest

Report
Quote

Post by Anonymous » 18 Aug 2025, 12:30

Ich versuche, ein PYSPARK-Programm zu schreiben, das Datensätze in einem sehr großen Datenrahmen (1-2B-Datensätze) filtert, der einige Bedingungen für einen anderen kleineren Referenzdatenrahmen entspricht. Dies geschieht mit einem linken Join zwischen den 2 Datenrahmen und schriftlich die Ergebnisse in eine Parkettdatei. Wenn der Referenzdatenrahmen leer ist, wird das Programm erfolgreich ausgeführt. Aber wenn der Referenzdatenrahmen 414K-Datensätze enthält, hängt das Spark-Programm am Nachrichtenspeicher.

Code: Select all

def extract_to_df(spark, ref_db):
columns_to_drop = ["ColA", "ColB", "ColC"]

# Join conditions
join_cond_1 = (col("Col1") >= col("Col3a")) & (col("Col1") >= col("Col3b"))
join_cond_2 = (col("Col2") >= col("Col3a")) & (col("Col2") >= col("Col3b"))

df = spark.read.parquet(folder)
df_2 = df.filter(df["Col4"]=="abc").withColumn("Col1", udf_col(col("Col1a"))).withColumn("Col2", udf_col(col("Col2a")))

df_tmp = df_2.join(ref_db, on=join_cond_1, how="left").drop(*columns_to_drop).withColumnRenamed("Col5", "Col5a")
df_results = df_tmp.join(ref_db, on=join_cond_2, how="left").drop(*columns_to_drop).withColumnRenamed("Col6", "Col6a")
df_final_results = df_results.dropna(subset=["Col5a", "Col6a"])

df_final_results.write.mode("overwrite").parquet(output_folder)

def main():
ref_db = spark.read.parquet("/ref_db.parquet")
ref_db.persist()

extract_to_df(spark, ref_db)

if __name__ == "__main__":
main()

Was ist mit dem Code los?

1755513051

Anonymous

Ich versuche, ein PYSPARK-Programm zu schreiben, das Datensätze in einem sehr großen Datenrahmen (1-2B-Datensätze) filtert, der einige Bedingungen für einen anderen kleineren Referenzdatenrahmen entspricht. Dies geschieht mit einem linken Join zwischen den 2 Datenrahmen und schriftlich die Ergebnisse in eine Parkettdatei. Wenn der Referenzdatenrahmen leer ist, wird das Programm erfolgreich ausgeführt. Aber wenn der Referenzdatenrahmen 414K-Datensätze enthält, hängt das Spark-Programm am Nachrichtenspeicher.[code]def extract_to_df(spark, ref_db):
columns_to_drop = ["ColA", "ColB", "ColC"]

# Join conditions
join_cond_1 = (col("Col1") >= col("Col3a")) & (col("Col1") >= col("Col3b"))
join_cond_2 = (col("Col2") >= col("Col3a")) & (col("Col2") >= col("Col3b"))

df = spark.read.parquet(folder)
df_2 = df.filter(df["Col4"]=="abc").withColumn("Col1", udf_col(col("Col1a"))).withColumn("Col2", udf_col(col("Col2a")))

df_tmp = df_2.join(ref_db, on=join_cond_1, how="left").drop(*columns_to_drop).withColumnRenamed("Col5", "Col5a")
df_results = df_tmp.join(ref_db, on=join_cond_2, how="left").drop(*columns_to_drop).withColumnRenamed("Col6", "Col6a")
df_final_results = df_results.dropna(subset=["Col5a", "Col6a"])

df_final_results.write.mode("overwrite").parquet(output_folder)

def main():
ref_db = spark.read.parquet("/ref_db.parquet")
ref_db.persist()

extract_to_df(spark, ref_db)

if __name__ == "__main__":
main()
[/code]
Was ist mit dem Code los?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

So führen Sie eine Netzwerkerkennung mithilfe von UDP-Broadcast durch

Last post by Guest « 16 Jan 2025, 11:20
Posted in C#

by Guest » 16 Jan 2025, 11:20 » in C#

Ich möchte eine Netzwerkerkennung mit UDP Broadcast in C# durchführen. Ich weiß nicht, wie ich das machen soll. Können Sie mir Ratschläge dazu geben?

Ich möchte dieses Tutorial gerne machen.

0 Replies

8 Views

Last post by Guest
16 Jan 2025, 11:20
Broadcast Route Return Leere Seite anstelle von Auth Token nach der Authentifizierung ist erfolgreich

Last post by Anonymous « 23 Sep 2025, 13:17
Posted in Php

by Anonymous » 23 Sep 2025, 13:17 » in Php

Ich habe von Laravel 8 auf Laravel 12 aktualisiert und Reverb für meine Chat -App installiert. Meine App zeichnet sich nicht zum Kanal ab, der mir diesen Fehler zeigt. Status

ChatController...

0 Replies

21 Views

Last post by Anonymous
23 Sep 2025, 13:17
Was bedeutet dieses Stück Code? NeuarrayList <> (collections.EmptyList ())

Last post by Anonymous « 22 Feb 2025, 01:47
Posted in Java

by Anonymous » 22 Feb 2025, 01:47 » in Java

In einem Code von meinem Unternehmen habe ich eine Listeninitialisierung gelesen:
List someClassList = new ArrayList(Collections.emptyList())

Was bedeutet es? Eine Liste mit 0...

0 Replies

14 Views

Last post by Anonymous
22 Feb 2025, 01:47
Scheduler -Fertigstellung reguläre Aufgaben Moodle Stuck 3.6.2

Last post by Anonymous « 02 Jun 2025, 20:08
Posted in Php

by Anonymous » 02 Jun 2025, 20:08 » in Php

Moodle Version 3.6.2, Php 7.2 NTs, Windows
Ich verwende Task Scheduler zum täglichen Ausführen von Cron, wenn ich auf Moodle afuledTasks
bemerkt, dass die Aufgabe die Fertigstellung von Aufgaben...

0 Replies

14 Views

Last post by Anonymous
02 Jun 2025, 20:08
Ist es so gut, ein Stück Numpy :: pyreadonlyArray in Pyo3 :: degly_threads () zu verwenden?

Last post by Anonymous « 03 Jun 2025, 18:17
Posted in Python

by Anonymous » 03 Jun 2025, 18:17 » in Python

Mein Ziel ist es, eine effiziente (und sichere) Möglichkeit zu implementieren, eine Rostfunktion mit Numpy :: pyreadonlyArray mit Null-Kopie und Gil-Freisetzung während der Berechnung zu wickeln.use...

0 Replies

7 Views

Last post by Anonymous
03 Jun 2025, 18:17

Return to “Python”