Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python ( ⇐ Python

1 post • Page 1 of 1

Guest

Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Post by Guest » 03 Jan 2025, 11:20

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.

Code: Select all

month | value | observation |
-----------------------------
2024-01 | 12 | High

2024-01 | 5 | Low

Eine in Python geschriebene Lambda-Funktion verwendet Pandas, um diese Daten zu aktualisieren – neue Zeilen einfügen, vorhandene Zeilen aktualisieren, Zeilen löschen usw.
Jeden Tag, wenn Wenn für eine bestimmte Entität neue Preise empfangen werden, liest der vorhandene Code die Feather-Datei für diese Entität in den Speicher (mithilfe von Pandas), verkettet die eingehenden neuen Daten und schreibt dann die aktualisierte Feather-Datei aus dem Speicher zurück in S3. Dies funktioniert vorerst gut, aber wenn die Größe dieser Feather-Dateien zunimmt, kommt es in einigen Fällen zu „Nicht genügend Speicher“-Ausnahmen, wenn Lambda versucht, während Zusammenführungsvorgängen eine große Feather-Datei in den Speicher zu laden. Dies ist der Fall, wenn ich dem Lambda 10 GB (maximal) Speicher zugewiesen habe.
Alle unterstützten Vorgänge – Zusammenführen, Aktualisieren, Löschen – werden im Speicher ausgeführt, sobald die Dateien vollständig geladen sind Speicher.
Gibt es eine bessere Möglichkeit oder eine andere Bibliothek, die mir helfen kann, diese Zusammenführungen/anderen Vorgänge durchzuführen, ohne alles in den Speicher zu laden? Ich überprüfe duckDB und es sieht so aus, als ob es Prädikat-Pushdowns auf Speicherebene unterstützt, Federdateien jedoch nicht nativ.
Suche nach anderen Ideen, um dieses Problem anzugehen.
Danke
Update
Wir führen eine Datumspartitionierung nach Jahr für Feather-Dateien durch. Das verlangsamt den Zusammenführungsvorgang, da ich mehrere Partitionen bearbeiten muss, falls die eingehenden Daten (in diesem Fall manuelles Laden) Datenpunkte aus verschiedenen Jahren enthalten.
Auch wenn der Benutzer danach fragt Daten, die sich über mehrere Jahre erstrecken ... zum Beispiel könnte die Abfrage lauten -> Geben Sie mir alle Daten mit „Hoch“-Beobachtung, ich muss immer noch mehrere Partitionen besuchen, was die Dinge verlangsamen kann.

1735899657

Guest

2024-01 | 5 | Low
[/code]
Eine in Python geschriebene Lambda-Funktion verwendet Pandas, um diese Daten zu aktualisieren – neue Zeilen einfügen, vorhandene Zeilen aktualisieren, Zeilen löschen usw.
Jeden Tag, wenn Wenn für eine bestimmte Entität neue Preise empfangen werden, liest der vorhandene Code die Feather-Datei für diese Entität in den Speicher (mithilfe von Pandas), verkettet die eingehenden neuen Daten und schreibt dann die aktualisierte Feather-Datei aus dem Speicher zurück in S3. Dies funktioniert vorerst gut, aber wenn die Größe dieser Feather-Dateien zunimmt, kommt es in einigen Fällen zu „Nicht genügend Speicher“-Ausnahmen, wenn Lambda versucht, während Zusammenführungsvorgängen eine große Feather-Datei in den Speicher zu laden. Dies ist der Fall, wenn ich dem Lambda 10 GB (maximal) Speicher zugewiesen habe.
Alle unterstützten Vorgänge – Zusammenführen, Aktualisieren, Löschen – werden im Speicher ausgeführt, sobald die Dateien vollständig geladen sind Speicher.
Gibt es eine bessere Möglichkeit oder eine andere Bibliothek, die mir helfen kann, diese Zusammenführungen/anderen Vorgänge durchzuführen, ohne alles in den Speicher zu laden? Ich überprüfe duckDB und es sieht so aus, als ob es Prädikat-Pushdowns auf Speicherebene unterstützt, Federdateien jedoch nicht nativ.
Suche nach anderen Ideen, um dieses Problem anzugehen.
Danke
Update
Wir führen eine Datumspartitionierung nach Jahr für Feather-Dateien durch. Das verlangsamt den Zusammenführungsvorgang, da ich mehrere Partitionen bearbeiten muss, falls die eingehenden Daten (in diesem Fall manuelles Laden) Datenpunkte aus verschiedenen Jahren enthalten.
Auch wenn der Benutzer danach fragt Daten, die sich über mehrere Jahre erstrecken ... zum Beispiel könnte die Abfrage lauten -> Geben Sie mir alle Daten mit „Hoch“-Beobachtung, ich muss immer noch mehrere Partitionen besuchen, was die Dinge verlangsamen kann.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Last post by Guest « 03 Jan 2025, 10:35
Posted in Python

by Guest » 03 Jan 2025, 10:35 » in Python

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.
month | value | observation |...

0 Replies

14 Views

Last post by Guest
03 Jan 2025, 10:35
Optimieren Sie den Gaz optimieren Sie einen großen Uint8Array als Parameter

Last post by Anonymous « 03 Mar 2025, 00:41
Posted in JavaScript

by Anonymous » 03 Mar 2025, 00:41 » in JavaScript

Ich habe einen sehr einfachen Smart-Vertrag, der Daten speichert. const data: UInt8Array = await compress(customBinaryEncoder(userData));

Mit einer Array-Größe von 2000 habe ich eine lächerliche...

0 Replies

4 Views

Last post by Anonymous
03 Mar 2025, 00:41
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:07
Posted in Php

by Guest » 13 Jan 2025, 14:07 » in Php

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt.
Das Problem:
Das Problem...

0 Replies

13 Views

Last post by Guest
13 Jan 2025, 14:07
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:07
Posted in MySql

by Guest » 13 Jan 2025, 14:07 » in MySql

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt.
Das Problem:
Das Problem...

0 Replies

12 Views

Last post by Guest
13 Jan 2025, 14:07
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:37
Posted in Php

by Guest » 13 Jan 2025, 14:37 » in Php

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt. Meine App ist eine...

0 Replies

8 Views

Last post by Guest
13 Jan 2025, 14:37

Return to “Python”