Wie schreibe ich mit Polars große Parquet-Dateien (20 GB+) stapelweise in SQLite?Python

Python-Programme
Anonymous
 Wie schreibe ich mit Polars große Parquet-Dateien (20 GB+) stapelweise in SQLite?

Post by Anonymous »

Ich habe den folgenden Polars-Code, der eine Parquet-Datei liest und in eine SQLite-Datenbank schreibt:

Code: Select all

data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
Dies funktioniert gut für kleinere Datensätze, aber wenn es um wirklich große Parquet-Dateien (20 GB+) geht, geht der Speicher aus.
Ich möchte nicht zu PostgreSQL wechseln (wie in anderen Threads vorgeschlagen) und konnte die Lösungen, die ich gefunden habe, nicht vollständig verstehen.
Wie kann ich diesen Code ändern, um große Parquet-Dateien effizient zu verarbeiten, indem ich sie in Stapeln verarbeite oder Streaming verwende?
Vielen Dank im Voraus!

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post