Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python ( ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Report
Quote

Post by Guest » 03 Jan 2025, 10:35

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.

Code: Select all

month | value | observation |
-----------------------------
2024-01 | 12 | High

2024-01 | 5 | Low

Eine in Python geschriebene Lambda-Funktion verwendet Pandas, um diese Daten zu aktualisieren – neue Zeilen einfügen, vorhandene Zeilen aktualisieren, Zeilen löschen usw.
Jeden Tag, wenn Wenn für eine bestimmte Entität neue Preise empfangen werden, liest der vorhandene Code die Feather-Datei für diese Entität in den Speicher (mithilfe von Pandas), verkettet die eingehenden neuen Daten und schreibt dann die aktualisierte Feather-Datei aus dem Speicher zurück in S3. Dies funktioniert vorerst gut, aber wenn die Größe dieser Feather-Dateien zunimmt, kommt es in einigen Fällen zu „Nicht genügend Speicher“-Ausnahmen, wenn Lambda versucht, während Zusammenführungsvorgängen eine große Feather-Datei in den Speicher zu laden. Dies ist der Fall, wenn ich dem Lambda 10 GB (maximal) Speicher zugewiesen habe.
Alle unterstützten Vorgänge – Zusammenführen, Aktualisieren, Löschen – werden im Speicher ausgeführt, sobald die Dateien vollständig geladen sind Speicher.
Gibt es eine bessere Möglichkeit oder eine andere Bibliothek, die mir helfen kann, diese Zusammenführungen/anderen Vorgänge durchzuführen, ohne alles in den Speicher zu laden? Ich überprüfe duckDB und es sieht so aus, als ob es Prädikat-Pushdowns auf Speicherebene unterstützt, Federdateien jedoch nicht nativ.
Suche nach anderen Ideen, um dieses Problem anzugehen.
Danke

1735896914

Guest

2024-01 | 5 | Low
[/code]
Eine in Python geschriebene Lambda-Funktion verwendet Pandas, um diese Daten zu aktualisieren – neue Zeilen einfügen, vorhandene Zeilen aktualisieren, Zeilen löschen usw.
Jeden Tag, wenn Wenn für eine bestimmte Entität neue Preise empfangen werden, liest der vorhandene Code die Feather-Datei für diese Entität in den Speicher (mithilfe von Pandas), verkettet die eingehenden neuen Daten und schreibt dann die aktualisierte Feather-Datei aus dem Speicher zurück in S3. Dies funktioniert vorerst gut, aber wenn die Größe dieser Feather-Dateien zunimmt, kommt es in einigen Fällen zu „Nicht genügend Speicher“-Ausnahmen, wenn Lambda versucht, während Zusammenführungsvorgängen eine große Feather-Datei in den Speicher zu laden. Dies ist der Fall, wenn ich dem Lambda 10 GB (maximal) Speicher zugewiesen habe.
Alle unterstützten Vorgänge – Zusammenführen, Aktualisieren, Löschen – werden im Speicher ausgeführt, sobald die Dateien vollständig geladen sind Speicher.
Gibt es eine bessere Möglichkeit oder eine andere Bibliothek, die mir helfen kann, diese Zusammenführungen/anderen Vorgänge durchzuführen, ohne alles in den Speicher zu laden? Ich überprüfe duckDB und es sieht so aus, als ob es Prädikat-Pushdowns auf Speicherebene unterstützt, Federdateien jedoch nicht nativ.
Suche nach anderen Ideen, um dieses Problem anzugehen.
Danke

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Last post by Guest « 03 Jan 2025, 11:20
Posted in Python

by Guest » 03 Jan 2025, 11:20 » in Python

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.
month | value | observation |...

0 Replies

20 Views

Last post by Guest
03 Jan 2025, 11:20
Optimieren Sie den Gaz optimieren Sie einen großen Uint8Array als Parameter

Last post by Anonymous « 03 Mar 2025, 00:41
Posted in JavaScript

by Anonymous » 03 Mar 2025, 00:41 » in JavaScript

Ich habe einen sehr einfachen Smart-Vertrag, der Daten speichert. const data: UInt8Array = await compress(customBinaryEncoder(userData));

Mit einer Array-Größe von 2000 habe ich eine lächerliche...

0 Replies

23 Views

Last post by Anonymous
03 Mar 2025, 00:41
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:07
Posted in Php

by Guest » 13 Jan 2025, 14:07 » in Php

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt.
Das Problem:
Das Problem...

0 Replies

18 Views

Last post by Guest
13 Jan 2025, 14:07
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:07
Posted in MySql

by Guest » 13 Jan 2025, 14:07 » in MySql

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt.
Das Problem:
Das Problem...

0 Replies

22 Views

Last post by Guest
13 Jan 2025, 14:07
Nginx gibt bei der Verarbeitung großer Datensätze den Fehler „Diese Site kann nicht erreicht werden“ zurück [geschlossen

Last post by Guest « 13 Jan 2025, 14:37
Posted in Php

by Guest » 13 Jan 2025, 14:37 » in Php

Ich verwalte eine auf PHP 8.2 und Symfony 7 basierende Schulverwaltungsplattform, die auf einem VPS mit 16 GB RAM von Hostinger gehostet wird und Ubuntu und Nginx ausführt. Meine App ist eine...

0 Replies

20 Views

Last post by Guest
13 Jan 2025, 14:37

Return to “Python”