result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
< /code>
Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
< /code>
dauert 1M 23s < /p>
df_pq = pq.read_table(dataset_storage_root, filters=filters)
Dauert 1M 22S
Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.
Ich habe ziemlich große (bis zu ~ 300 GB) Datensätze, die durch Partitionen im Parquetformat gespeichert sind (komprimiert).[code]result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner( columns=columns, filter=filters ).to_table().to_pandas() < /code> Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters) < /code> dauert 1M 23s < /p> df_pq = pq.read_table(dataset_storage_root, filters=filters) [/code] Dauert 1M 22S Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.
Ich muss einen Spring-Batch-Job erstellen, der Daten aus Datenbank A liest, die Daten transformiert und in Datenbank B speichert. Ich habe es schon früher geschafft, einen nicht partitionierten...
Hallo, ich habe Probleme mit einem Code, den ich verwenden möchte. Ich habe das Problem auf einen Abschnitt eingegrenzt und bin mir nicht sicher, wie ich es beheben kann. Der Code schlägt beim...
Ziemlich neu mit Datengenerator und Datensatz von Tensorflow. Ich habe Probleme mit der Größenanpassung von Batch, Epochen und Schritten ... Ich kann mir nicht vorstellen, wie man den Fehler „Lokales...
Ich lerne Dask, um meine Python-Projekte effizienter und skalierbarer zu machen. Um die Leistung besser zu verstehen, habe ich ein Skript geschrieben, das die Rechenzeit von Pandas und Dask bei der...