result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
< /code>
Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
< /code>
dauert 1M 23s < /p>
df_pq = pq.read_table(dataset_storage_root, filters=filters)
Dauert 1M 22S
Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.
Ich habe ziemlich große (bis zu ~ 300 GB) Datensätze, die durch Partitionen im Parquetformat gespeichert sind (komprimiert).[code]result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner( columns=columns, filter=filters ).to_table().to_pandas() < /code> Obwohl dies funktioniert, ist es ziemlich langsam (ich nehme an, dies ist auf der Tatsache zurückzuführen, dass es tatsächlich den vollständigen Datensatz liest und nur Filter angewendet wird, die über jede Zeile iteriert, und mit ziemlich langsam ~ 13 Sekunden meine, die angesichts der Datensatzgröße, aber die tatsächliche Menge der Daten, die ich für die Daten, die ich für die Daten, die ich für die Daten, zum Abruf, in Ordnung bin, in Ordnung bin. Und das Lesen von nur diesen Teil erfordert ~ 9 ms zum Vergleich. Der Nachteil ist, ich muss manuell Partitionsspalten und -Werte hinzufügen und einige Eckfälle mit Filterung und Schemas verarbeiten.df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters) < /code> dauert 1M 23s < /p> df_pq = pq.read_table(dataset_storage_root, filters=filters) [/code] Dauert 1M 22S Diese dauert wahnsinnig viel Zeit, obwohl der Anspruch nur die durch Filter angegebene Teilmenge lesen sollte.
Ich muss einen Spring-Batch-Job erstellen, der Daten aus Datenbank A liest, die Daten transformiert und in Datenbank B speichert. Ich habe es schon früher geschafft, einen nicht partitionierten...
Ich entwickle eine React Native-App mit Expo auf Android, in der Benutzer Bilder mit dem React-Native-Document-Picker auswählen können. Das ultimative Ziel besteht darin, diese Bilder mit optimiertem...
Die Anforderung für mein Projekt besteht darin, einen Aktualisierungsmechanismus für In-Memory-Daten in bestimmten Zeitintervallen in einer Spring-Anwendung einzuführen. Die Details sind wie folgt:...