Zwischenergebnisse für die Lazyframe-Verarbeitung großer Polaren speichern? - Programmiererforum

Zwischenergebnisse für die Lazyframe-Verarbeitung großer Polaren speichern? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Zwischenergebnisse für die Lazyframe-Verarbeitung großer Polaren speichern?

Report
Quote

Post by Guest » 27 Dec 2024, 11:15

Das Problem hängt möglicherweise mit https://github.com/pola-rs/polars/issues/9842 und der stapelweisen Verarbeitung von Python Polars LazyFrame zusammen
Mein Setup ist< /p>

Code: Select all

input = pathlib.Path("input.csv") # 300k lines
output = pathlib.Path("output.csv")
def mapper(row_id):
# expensive computation and can fail sometimes
pass
any_value_column_is_null = ... # polars expression
schema_as_dict = ... # polars schema
id_col_name = "id"
def process_unprocessed_rows_in_batch(df: pl.DataFrame) -> pl.DataFrame:
additional_data = (
df.filter(any_value_column_is_null)
.with_columns(
pl.col(id_col_name)
.map_elements(
mapper,
pl.Struct(schema_as_dict),
)
.alias(generated_data_col_name)
)
.with_columns(pl.col(generated_data_col_name).struct.unnest())
.drop(generated_data_col_name)
)
return df.update(additional_data, on=id_col_name, how="left")

df = pl.scan_csv(input, schema=schema_as_dict).map_batches(
process_unprocessed_rows_in_batch, streamable=True
)
df.sink_csv(output, maintain_order=False)

Plan ist

Code: Select all

STREAMING:
OPAQUE_PYTHON
Csv SCAN [snippet-dataset.csv]
PROJECT */4 COLUMNS

In diesem Setup möchte ich eine Best-Effort-Verarbeitung haben – wenn der Mapper fehlschlägt, möchte ich bereits verarbeitete Ergebnisse beibehalten
Ich bin davon ausgegangen, dass Streaming erfolgt Wird in Stapeln ausgeführt, sodass bereits verarbeitete Stapel in der Ausgabe beibehalten werden und im Falle eines Fehlers nur der aktuelle Stapel verloren geht
Aber das scheint nicht der Fall zu sein – wenn die Verarbeitung fehlschlägt, ist die Zwischenausgabe leer
I habe versucht anzupassen sink_csv(batch_size) und pl.Config.set_streaming_chunk_size – es hat keine Auswirkung

1735294535

Guest

Das Problem hängt möglicherweise mit https://github.com/pola-rs/polars/issues/9842 und der stapelweisen Verarbeitung von Python Polars LazyFrame zusammen
Mein Setup ist< /p>
[code]input = pathlib.Path("input.csv") # 300k lines
output = pathlib.Path("output.csv")
def mapper(row_id):
# expensive computation and can fail sometimes
pass
any_value_column_is_null = ... # polars expression
schema_as_dict = ... # polars schema
id_col_name = "id"
def process_unprocessed_rows_in_batch(df: pl.DataFrame) -> pl.DataFrame:
additional_data = (
df.filter(any_value_column_is_null)
.with_columns(
pl.col(id_col_name)
.map_elements(
mapper,
pl.Struct(schema_as_dict),
)
.alias(generated_data_col_name)
)
.with_columns(pl.col(generated_data_col_name).struct.unnest())
.drop(generated_data_col_name)
)
return df.update(additional_data, on=id_col_name, how="left")

df = pl.scan_csv(input, schema=schema_as_dict).map_batches(
process_unprocessed_rows_in_batch, streamable=True
)
df.sink_csv(output, maintain_order=False)
[/code]
Plan ist
[code]STREAMING:
OPAQUE_PYTHON
Csv SCAN [snippet-dataset.csv]
PROJECT */4 COLUMNS
[/code]
In diesem Setup möchte ich eine Best-Effort-Verarbeitung haben – wenn der Mapper fehlschlägt, möchte ich bereits verarbeitete Ergebnisse beibehalten
Ich bin davon ausgegangen, dass Streaming erfolgt Wird in Stapeln ausgeführt, sodass bereits verarbeitete Stapel in der Ausgabe beibehalten werden und im Falle eines Fehlers nur der aktuelle Stapel verloren geht
Aber das scheint nicht der Fall zu sein – wenn die Verarbeitung fehlschlägt, ist die Zwischenausgabe leer
I habe versucht anzupassen sink_csv(batch_size) und pl.Config.set_streaming_chunk_size – es hat keine Auswirkung

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Python Polars: Wie füge ich Spalten in einem LazyFrame zu einem anderen LazyFrame hinzu?

Last post by Guest « 05 Feb 2025, 13:18
Posted in Python

by Guest » 05 Feb 2025, 13:18 » in Python

Ich habe einen LazyFrame in Python und möchte IT -Spalten von einem anderen LazyFrame hinzufügen. Die beiden LazyFrames haben die gleiche Anzahl von Zeilen und verschiedenen Spalten. > def...

0 Replies

18 Views

Last post by Guest
05 Feb 2025, 13:18
Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Last post by Guest « 03 Jan 2025, 10:35
Posted in Python

by Guest » 03 Jan 2025, 10:35 » in Python

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.
month | value | observation |...

0 Replies

24 Views

Last post by Guest
03 Jan 2025, 10:35
Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Last post by Guest « 03 Jan 2025, 11:20
Posted in Python

by Guest » 03 Jan 2025, 11:20 » in Python

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.
month | value | observation |...

0 Replies

19 Views

Last post by Guest
03 Jan 2025, 11:20
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:07
Posted in Php

by Guest » 13 Jan 2025, 14:07 » in Php

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt.
Das Problem:
Das Problem...

0 Replies

18 Views

Last post by Guest
13 Jan 2025, 14:07
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:07
Posted in MySql

by Guest » 13 Jan 2025, 14:07 » in MySql

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt.
Das Problem:
Das Problem...

0 Replies

17 Views

Last post by Guest
13 Jan 2025, 14:07

Return to “Python”