Effizientes Lesen Teil des partitionierten Datensatzes

Effizientes Lesen Teil des partitionierten Datensatzes ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Effizientes Lesen Teil des partitionierten Datensatzes

Post by Anonymous » 17 Mar 2025, 14:36

Ich habe ziemlich große (bis zu ~ 300 GB) Datensätze, die durch Partitionen im Parquetformat gespeichert sind (komprimiert).

Code: Select all

result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
< /code>
Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
< /code>
dauert 1M 23s < /p>
df_pq = pq.read_table(dataset_storage_root, filters=filters)

Dauert 1M 22S
Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.

1742218619

Anonymous

Ich habe ziemlich große (bis zu ~ 300 GB) Datensätze, die durch Partitionen im Parquetformat gespeichert sind (komprimiert).[code]result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
< /code>
Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
< /code>
dauert 1M 23s < /p>
df_pq = pq.read_table(dataset_storage_root, filters=filters)
[/code]
Dauert 1M 22S 
Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

ScopeNotActiveException für Reader, Prozessor und Writer beim Implementieren eines Spring Batch-partitionierten Jobs

Last post by Guest « 14 Jan 2025, 11:56
Posted in Java

by Guest » 14 Jan 2025, 11:56 » in Java

Ich muss einen Spring-Batch-Job erstellen, der Daten aus Datenbank A liest, die Daten transformiert und in Datenbank B speichert. Ich habe es schon früher geschafft, einen nicht partitionierten...

0 Replies

22 Views

Last post by Guest
14 Jan 2025, 11:56
Fehler beim Löschen des Datensatzes mit ASP.NET MVC

Last post by Guest « 27 Dec 2024, 06:29
Posted in C#

by Guest » 27 Dec 2024, 06:29 » in C#

Ich habe einen CRUD-Vorgang erstellt und dabei erhalte ich beim Versuch, einen Datensatz zu löschen, eine Fehlermeldung:

Speicheraktualisierung, Einfügung oder Löschanweisung betroffen eine...

0 Replies

11 Views

Last post by Guest
27 Dec 2024, 06:29
Xaml.cs System.IO.InvalidDataException: „Das Ende des Central Directory-Datensatzes konnte nicht gefunden werden.“

Last post by Guest « 28 Dec 2024, 16:17
Posted in C#

by Guest » 28 Dec 2024, 16:17 » in C#

Hallo, ich habe Probleme mit einem Code, den ich verwenden möchte. Ich habe das Problem auf einen Abschnitt eingegrenzt und bin mir nicht sicher, wie ich es beheben kann. Der Code schlägt beim...

0 Replies

12 Views

Last post by Guest
28 Dec 2024, 16:17
Problem mit geteilten Größenparametern des Tensorflow-Datensatzes: Das lokale Rendezvous wird mit dem Status abgebrochen

Last post by Guest « 06 Jan 2025, 22:44
Posted in Python

by Guest » 06 Jan 2025, 22:44 » in Python

Ziemlich neu mit Datengenerator und Datensatz von Tensorflow. Ich habe Probleme mit der Größenanpassung von Batch, Epochen und Schritten ... Ich kann mir nicht vorstellen, wie man den Fehler „Lokales...

0 Replies

11 Views

Last post by Guest
06 Jan 2025, 22:44
Warum ist Dask bei der Berechnung des Mittelwerts eines großen Datensatzes langsamer als Pandas und wie kann ich die Lei

Last post by Guest « 19 Jan 2025, 21:07
Posted in Python

by Guest » 19 Jan 2025, 21:07 » in Python

Ich lerne Dask, um meine Python-Projekte effizienter und skalierbarer zu machen. Um die Leistung besser zu verstehen, habe ich ein Skript geschrieben, das die Rechenzeit von Pandas und Dask bei der...

0 Replies

15 Views

Last post by Guest
19 Jan 2025, 21:07

Return to “Python”