Wie schreibe ich mit Polars große Parquet-Dateien (20 GB+) stapelweise in SQLite? - Programmiererforum

Wie schreibe ich mit Polars große Parquet-Dateien (20 GB+) stapelweise in SQLite? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie schreibe ich mit Polars große Parquet-Dateien (20 GB+) stapelweise in SQLite?

Report
Quote

Post by Anonymous » 31 Oct 2025, 23:23

Ich habe den folgenden Polars-Code, der eine Parquet-Datei liest und in eine SQLite-Datenbank schreibt:

Code: Select all

data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)

Dies funktioniert gut für kleinere Datensätze, aber wenn es um wirklich große Parquet-Dateien (20 GB+) geht, geht der Speicher aus.
Ich möchte nicht zu PostgreSQL wechseln (wie in anderen Threads vorgeschlagen) und konnte die Lösungen, die ich gefunden habe, nicht vollständig verstehen.
Wie kann ich diesen Code ändern, um große Parquet-Dateien effizient zu verarbeiten, indem ich sie in Stapeln verarbeite oder Streaming verwende?
Vielen Dank im Voraus!

1761949409

Anonymous

Ich habe den folgenden Polars-Code, der eine Parquet-Datei liest und in eine SQLite-Datenbank schreibt:
[code]data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
[/code]
Dies funktioniert gut für kleinere Datensätze, aber wenn es um wirklich große Parquet-Dateien (20 GB+) geht, geht der Speicher aus.
Ich möchte nicht zu PostgreSQL wechseln (wie in anderen Threads vorgeschlagen) und konnte die Lösungen, die ich gefunden habe, nicht vollständig verstehen.
Wie kann ich diesen Code ändern, um große Parquet-Dateien effizient zu verarbeiten, indem ich sie in Stapeln verarbeite oder Streaming verwende?
Vielen Dank im Voraus!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann/sollte ich Skripte testen, die Dateien stapelweise umbenennen?

Last post by Anonymous « 28 Oct 2025, 21:00
Posted in Python

by Anonymous » 28 Oct 2025, 21:00 » in Python

Ich habe ein Skript, das Ordner in cwd durchläuft. Ziehen Sie das Datum aus dem Namen jedes Ordners, benennen Sie dann die Dateien in jedem Ordner mit diesem Datum um und verschieben Sie sie nach...

0 Replies

22 Views

Last post by Anonymous
28 Oct 2025, 21:00
Wie kann ich ein Python-Skript testen, das Dateien stapelweise umbenennt?

Last post by Anonymous « 30 Oct 2025, 01:04
Posted in Python

by Anonymous » 30 Oct 2025, 01:04 » in Python

Ich habe ein Skript, das Ordner in cwd durchläuft. Ziehen Sie das Datum aus dem Namen jedes Ordners, benennen Sie dann die Dateien in jedem Ordner mit diesem Datum um und verschieben Sie sie nach...

0 Replies

26 Views

Last post by Anonymous
30 Oct 2025, 01:04
Beim wiederholten Lesen von Parquet-Dateien nimmt die Speichernutzung weiter zu

Last post by Anonymous « 31 Oct 2025, 23:03
Posted in Python

by Anonymous » 31 Oct 2025, 23:03 » in Python

Ich habe ein Problem, bei dem die Speichernutzung meines Python-Skripts während der wiederholten Verarbeitung von Parquet-Dateien mit PyArrow kontinuierlich zunimmt – selbst nachdem Objekte explizit...

0 Replies

22 Views

Last post by Anonymous
31 Oct 2025, 23:03
Ist die Zeilenreihenfolge bei der Verwendung von polars.scan_csv und polars.scan_parquet mit der Liste der Dateien garan

Last post by Anonymous « 11 Jul 2025, 17:45
Posted in Python

by Anonymous » 11 Jul 2025, 17:45 » in Python

Wenn ich eine Liste von Dateien habe, l = mit den Größen S1, S2, ..., Sn und ich erstelle einen df mit df = pl.scan_csv (l, ...) oder df = pl.Scan_Parquet (l, l. d.h. ?

0 Replies

31 Views

Last post by Anonymous
11 Jul 2025, 17:45
Wie schließe ich eine mit System.Data.SQLite und DbContext geöffnete SQLite-Datei?

Last post by Guest « 05 Jan 2025, 10:45
Posted in C#

by Guest » 05 Jan 2025, 10:45 » in C#

Bei meiner EF6-Nachbildung dieser exemplarischen Vorgehensweise zum Erstellen und Zugreifen auf eine SQLite-Datenbank mithilfe von System.Data.SQLite habe ich festgestellt, dass bei jedem Zugriff auf...

0 Replies

54 Views

Last post by Guest
05 Jan 2025, 10:45

Return to “Python”