Schnellere Möglichkeit zum Filtern des Abgleichs von Datensätzen zwischen 2 PYSPARK -Datenframes

Schnellere Möglichkeit zum Filtern des Abgleichs von Datensätzen zwischen 2 PYSPARK -Datenframes ⇐ Python

1 post • Page 1 of 1

Anonymous

Schnellere Möglichkeit zum Filtern des Abgleichs von Datensätzen zwischen 2 PYSPARK -Datenframes

Report
Quote

Post by Anonymous » 20 Aug 2025, 11:23

Ich versuche, ein PYSPARK -Programm zu schreiben, das Datensätze in einem sehr großen Datenrahmen (700 m bis 1B -Datensätze) filtert, das einigen Bedingungen für einen anderen kleineren Referenzdatenfream (450K -Datensätze) übereinstimmt. Dies geschieht mit einem linken Join zwischen den 2 Datenrahmen und schriftlich die Ergebnisse in eine Parkettdatei. Ich habe jedoch Probleme, das PYSPARK -Programm erfolgreich auszuführen. Der Referenzdatenrahmen auf 5 oder 10 Stücke gegen den gesamten großen Datenrahmen < /li>
Wenn ich den Referenzdatenrahmen auf 5 -Stücke aufteilte, und der große Datenrahmen auf 10 Stücke < /li>
< /ul>
< /li>
< /ul>
Aufteilung. Ich habe mir den Ausgabefordner angesehen, es gibt eine Parquetendatei, die tief in sich vergraben ist (

Code: Select all

/_temporary/0/_temporary/attempt_/part-00000-....snappy.parquet

). Diese Datei ist jedoch 0 Byte. < /P>
Mein Code (ohne Aufteilung) ist wie folgt.def extract_to_df(spark, ref_db):
columns_to_drop = ["ColA", "ColB", "ColC"]

# Join conditions
join_cond_1 = (col("Col1") >= col("Col3a")) & (col("Col1") >= col("Col3b"))
join_cond_2 = (col("Col2") >= col("Col3a")) & (col("Col2") >= col("Col3b"))

df = spark.read.parquet(folder)
df_2 = df.filter(df["Col4"]=="abc").withColumn("Col1", udf_col(col("Col1a"))).withColumn("Col2", udf_col(col("Col2a")))

df_tmp = df_2.join(ref_db, on=join_cond_1, how="left").drop(*columns_to_drop).withColumnRenamed("Col5", "Col5a")
df_results = df_tmp.join(ref_db, on=join_cond_2, how="left").drop(*columns_to_drop).withColumnRenamed("Col6", "Col6a")
df_final_results = df_results.dropna(subset=["Col5a", "Col6a"])

df_final_results.write.mode("append").parquet(output_folder)

def main():
ref_db = spark.read.parquet("/ref_db.parquet")

extract_to_df(spark, ref_db)

if __name__ == "__main__":
main()
< /code>
Vielleicht ist dies vielleicht nicht die effizienteste Art, das zu tun, was ich will. Gibt es einen schnelleren Weg, dies zu tun als 2 Verbindungen?

1755681832

Anonymous

Ich versuche, ein PYSPARK -Programm zu schreiben, das Datensätze in einem sehr großen Datenrahmen (700 m bis 1B -Datensätze) filtert, das einigen Bedingungen für einen anderen kleineren Referenzdatenfream (450K -Datensätze) übereinstimmt. Dies geschieht mit einem linken Join zwischen den 2 Datenrahmen und schriftlich die Ergebnisse in eine Parkettdatei. Ich habe jedoch Probleme, das PYSPARK -Programm erfolgreich auszuführen. Der Referenzdatenrahmen auf 5 oder 10 Stücke gegen den gesamten großen Datenrahmen < /li>
 Wenn ich den Referenzdatenrahmen auf 5 -Stücke aufteilte, und der große Datenrahmen auf 10 Stücke < /li>
< /ul>
< /li>
< /ul>
Aufteilung. Ich habe mir den Ausgabefordner angesehen, es gibt eine Parquetendatei, die tief in sich vergraben ist ([code]/_temporary/0/_temporary/attempt_/part-00000-....snappy.parquet[/code]). Diese Datei ist jedoch 0 Byte. < /P>
Mein Code (ohne Aufteilung) ist wie folgt.def extract_to_df(spark, ref_db):
columns_to_drop = ["ColA", "ColB", "ColC"]

# Join conditions
join_cond_1 = (col("Col1") >= col("Col3a")) & (col("Col1") >= col("Col3b"))
join_cond_2 = (col("Col2") >= col("Col3a")) & (col("Col2") >= col("Col3b"))

df = spark.read.parquet(folder)
df_2 = df.filter(df["Col4"]=="abc").withColumn("Col1", udf_col(col("Col1a"))).withColumn("Col2", udf_col(col("Col2a")))

df_tmp = df_2.join(ref_db, on=join_cond_1, how="left").drop(*columns_to_drop).withColumnRenamed("Col5", "Col5a")
df_results = df_tmp.join(ref_db, on=join_cond_2, how="left").drop(*columns_to_drop).withColumnRenamed("Col6", "Col6a")
df_final_results = df_results.dropna(subset=["Col5a", "Col6a"])

df_final_results.write.mode("append").parquet(output_folder)

def main():
ref_db = spark.read.parquet("/ref_db.parquet")

extract_to_df(spark, ref_db)

if __name__ == "__main__":
main()
< /code>
Vielleicht ist dies vielleicht nicht die effizienteste Art, das zu tun, was ich will. Gibt es einen schnelleren Weg, dies zu tun als 2 Verbindungen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Gibt es eine schnellere Möglichkeit zu überprüfen, ob die Nullen eines Bitboards ein Polyomino bilden?

Last post by Anonymous « 17 Jan 2025, 09:54
Posted in C#

by Anonymous » 17 Jan 2025, 09:54 » in C#

Die Methode, die ich verwende, ist sehr einfach zu verstehen und ich bin mir nicht sicher, wie ich sie schneller machen könnte, aber vielleicht gibt es eine andere Methode. Ich versuche...

0 Replies

29 Views

Last post by Anonymous
17 Jan 2025, 09:54
Gibt es eine schnellere Möglichkeit zu überprüfen, ob die Nullen eines Bitboards ein Polyomino bilden?

Last post by Guest « 18 Jan 2025, 18:49
Posted in C#

by Guest » 18 Jan 2025, 18:49 » in C#

Die Methode, die ich verwende, ist sehr einfach zu verstehen und ich bin mir nicht sicher, wie ich sie schneller machen könnte, aber vielleicht gibt es eine andere Methode. Ich versuche...

0 Replies

28 Views

Last post by Guest
18 Jan 2025, 18:49
Gibt es eine schnellere Möglichkeit zu überprüfen, ob die Nullen eines Bitboards ein Polyomino bilden?

Last post by Guest « 19 Jan 2025, 18:26
Posted in C#

by Guest » 19 Jan 2025, 18:26 » in C#

Die Methode, die ich verwende, ist sehr einfach zu verstehen und ich bin mir nicht sicher, wie ich sie schneller machen könnte, aber vielleicht gibt es eine andere Methode. Ich versuche...

0 Replies

24 Views

Last post by Guest
19 Jan 2025, 18:26
Gibt es eine schnellere Möglichkeit, ein Byte -Array in eine Datei zu schreiben?

Last post by Guest « 18 Feb 2025, 12:36
Posted in Java

by Guest » 18 Feb 2025, 12:36 » in Java

Ich habe eine Java -Anwendung, die die Möglichkeit benötigt, große Dateien in und von einem Amazon S3 -Speicherbereich hochzuladen und herunterzuladen.
Ich war angenehm überrascht, wie schnell große...

0 Replies

21 Views

Last post by Guest
18 Feb 2025, 12:36
Schnellere Methoden zum Erstellen von Geodataframe aus einem Dask- oder Pandas -Datenframe

Last post by Guest « 28 Jan 2025, 05:29
Posted in Python

by Guest » 28 Jan 2025, 05:29 » in Python

Problem
Ich versuche, ein sehr großes Blockmodell (5,8 GB CSV -Datei) mit Zentroid -X-, Y- und Z -Koordinaten mit einem zu klemmen Höhenraster. Ich versuche nur die Blöcke zu erhalten, die direkt...

0 Replies

36 Views

Last post by Guest
28 Jan 2025, 05:29

Return to “Python”