Code: Select all
data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
Ich möchte nicht zu PostgreSQL wechseln (wie in anderen Threads vorgeschlagen) und konnte die Lösungen, die ich gefunden habe, nicht vollständig verstehen.
Wie kann ich diesen Code ändern, um große Parquet-Dateien effizient zu verarbeiten, indem ich sie in Stapeln verarbeite oder Streaming verwende?
Vielen Dank im Voraus!
Mobile version