Effizientes Lesen Teil des partitionierten Datensatzes

Effizientes Lesen Teil des partitionierten Datensatzes ⇐ Python

1 post • Page 1 of 1

Anonymous

Effizientes Lesen Teil des partitionierten Datensatzes

Report
Quote

Post by Anonymous » 17 Mar 2025, 14:36

Ich habe ziemlich große (bis zu ~ 300 GB) Datensätze, die durch Partitionen im Parquetformat gespeichert sind (komprimiert).

Code: Select all

result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
< /code>
Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
< /code>
dauert 1M 23s < /p>
df_pq = pq.read_table(dataset_storage_root, filters=filters)

Dauert 1M 22S
Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.

1742218619

Anonymous

Ich habe ziemlich große (bis zu ~ 300 GB) Datensätze, die durch Partitionen im Parquetformat gespeichert sind (komprimiert).[code]result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
< /code>
Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
< /code>
dauert 1M 23s < /p>
df_pq = pq.read_table(dataset_storage_root, filters=filters)
[/code]
Dauert 1M 22S 
Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

ScopeNotActiveException für Reader, Prozessor und Writer beim Implementieren eines Spring Batch-partitionierten Jobs

Last post by Guest « 14 Jan 2025, 11:56
Posted in Java

by Guest » 14 Jan 2025, 11:56 » in Java

Ich muss einen Spring-Batch-Job erstellen, der Daten aus Datenbank A liest, die Daten transformiert und in Datenbank B speichert. Ich habe es schon früher geschafft, einen nicht partitionierten...

0 Replies

11 Views

Last post by Guest
14 Jan 2025, 11:56
Wie erhalte ich persistente Bild-URIs mit React Native DocumentPicker für effizientes automatisches Caching und Laden? (

Last post by Guest « 17 Jan 2025, 02:25
Posted in Android

by Guest » 17 Jan 2025, 02:25 » in Android

Ich entwickle eine React Native-App mit Expo auf Android, in der Benutzer Bilder mit dem React-Native-Document-Picker auswählen können. Das ultimative Ziel besteht darin, diese Bilder mit optimiertem...

0 Replies

4 Views

Last post by Guest
17 Jan 2025, 02:25
Effizientes Implementieren eines regelmäßigen In-Memory-Refresh-Mechanismus in einer Spring-Anwendung, schlagen Sie für

Last post by Guest « 20 Jan 2025, 18:11
Posted in Java

by Guest » 20 Jan 2025, 18:11 » in Java

Die Anforderung für mein Projekt besteht darin, einen Aktualisierungsmechanismus für In-Memory-Daten in bestimmten Zeitintervallen in einer Spring-Anwendung einzuführen. Die Details sind wie folgt:...

0 Replies

1 Views

Last post by Guest
20 Jan 2025, 18:11
Effizientes 16-Bit-Array in 32-Bit mit Überlauf und Lücken umwandeln

Last post by Anonymous « 11 Feb 2025, 15:18
Posted in Python

by Anonymous » 11 Feb 2025, 15:18 » in Python

Angenommen, ich habe die folgende Liste nur aus 16-Bit-Werten:

Ich möchte es in eine 32-Bit-Liste umwandeln, damit:

Dies bedeutet, dass die Werte nach der Begegnung mit 0 durch 2
(65536)...

0 Replies

2 Views

Last post by Anonymous
11 Feb 2025, 15:18
Fehler beim Löschen des Datensatzes mit ASP.NET MVC

Last post by Guest « 27 Dec 2024, 06:29
Posted in C#

by Guest » 27 Dec 2024, 06:29 » in C#

Ich habe einen CRUD-Vorgang erstellt und dabei erhalte ich beim Versuch, einen Datensatz zu löschen, eine Fehlermeldung:

Speicheraktualisierung, Einfügung oder Löschanweisung betroffen eine...

0 Replies

1 Views

Last post by Guest
27 Dec 2024, 06:29

Return to “Python”