Wie schreibe ich mit Polaren große Parkettdateien (20 GB+) in Stapel in Stapel? - Programmiererforum

Wie schreibe ich mit Polaren große Parkettdateien (20 GB+) in Stapel in Stapel? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie schreibe ich mit Polaren große Parkettdateien (20 GB+) in Stapel in Stapel?

Report
Quote

Post by Anonymous » 02 Apr 2025, 11:49

Ich habe den folgenden Polarscode, der eine Parquetdatei liest und sie in eine SQLite -Datenbank schreibt: < /p>
data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
< /code>
Dies funktioniert gut für kleinere Datensätze, aber im Umgang mit wirklich großen Parquetdateien (20 GB+) ist es kein Speicher. Verarbeiten Sie sie in Stapeln oder Streaming?
Vielen Dank im Voraus!

1743587395

Anonymous

Ich habe den folgenden Polarscode, der eine Parquetdatei liest und sie in eine SQLite -Datenbank schreibt: < /p>
data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
< /code>
Dies funktioniert gut für kleinere Datensätze, aber im Umgang mit wirklich großen Parquetdateien (20 GB+) ist es kein Speicher. Verarbeiten Sie sie in Stapeln oder Streaming? 
Vielen Dank im Voraus!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Parkettdateien mit Polaren können nicht gelesen werden, während Pyarrow dies kann

Last post by Anonymous « 27 Oct 2025, 14:19
Posted in Python

by Anonymous » 27 Oct 2025, 14:19 » in Python

Ich erhalte eine dtype-Ausnahme
pyo3_runtime.PanicException: Arrow datatype Map(Field { name: key_value , dtype: LargeList(Field { name: key_value , dtype: Struct( ), is_nullable: true, metadata:...

0 Replies

0 Views

Last post by Anonymous
27 Oct 2025, 14:19
Die Speicherverwendung erhöht sich weiterhin beim wiederholten Lesen von Parkettdateien

Last post by Anonymous « 11 Feb 2025, 23:40
Posted in Python

by Anonymous » 11 Feb 2025, 23:40 » in Python

Ich habe ein Problem, bei dem der Speicherverbrauch meines Python -Skripts während der wiederholten Verarbeitung von Parquetendateien mithilfe von Pyarrow kontinuierlich zunimmt - auch nach...

0 Replies

14 Views

Last post by Anonymous
11 Feb 2025, 23:40
Ich versuche, die Größe einer Datei mit os.path.getSize zu erhalten, aber sie druckt die Größe als Bytes aus und ich möc

Last post by Anonymous « 07 Apr 2025, 22:41
Posted in Python

by Anonymous » 07 Apr 2025, 22:41 » in Python

Ich versuche, die Größe einer Datei mit OSPath.Path.GetSize zu erhalten, druckt aber die Größe als Bytes aus und ich möchte sie in MB ausdrucken, irgendwelche Lösungen?
Der Code:
import os
from os...

0 Replies

21 Views

Last post by Anonymous
07 Apr 2025, 22:41
Wie kann ich eine große Datei nach Größe oder Anzahl der Teile in Java in mehrere Stücke aufteilen? [geschlossen]

Last post by Anonymous « 28 May 2025, 09:58
Posted in Java

by Anonymous » 28 May 2025, 09:58 » in Java

Ich arbeite an einer Java -Anwendung, in der ich eine große Datei in mehrere kleinere Stücke aufteilen muss. Ideally, I would like to provide either:

the path to the original file,
and either the...

0 Replies

10 Views

Last post by Anonymous
28 May 2025, 09:58
Wie schreibe ich eine Abfrage wie (A oder B) und C in Polars?

Last post by Anonymous « 27 Oct 2025, 14:14
Posted in Python

by Anonymous » 27 Oct 2025, 14:14 » in Python

Ich habe erwartet, dass entweder a oder b 0,0 sein würden (nicht NaN) und c immer 0,0 sein würde. In der Polars-Dokumentation heißt es, | zu verwenden als „oder“ und & als „und“. Ich glaube, ich habe...

0 Replies

0 Views

Last post by Anonymous
27 Oct 2025, 14:14

Return to “Python”