Warum führt Polars OOM aus, während es versucht, eine komprimierte CSV-Datei zu lesen, während Pandas dazu in der Lage i

Warum führt Polars OOM aus, während es versucht, eine komprimierte CSV-Datei zu lesen, während Pandas dazu in der Lage i ⇐ Python

1 post • Page 1 of 1

Anonymous

Warum führt Polars OOM aus, während es versucht, eine komprimierte CSV-Datei zu lesen, während Pandas dazu in der Lage i

Report
Quote

Post by Anonymous » 04 Dec 2025, 06:47

Ich habe eine komprimierte CSV-Datei, die als csv.gz komprimiert ist und die ich verarbeiten möchte. Ich wähle im Allgemeinen Polars, weil es speichereffizienter und schneller ist. Hier ist der Code, den ich verwende, um ihn langsam zu lesen und zu filtern, bevor ich eine andere Verarbeitung darauf ausführen kann.

Code: Select all

df = (
pl.scan_csv(underlying_file_path, try_parse_dates=True, low_memory=True)
.select(pl.col("bin", "price", "type", "date", "fut"))
.filter(pl.col("date") == pl.col("date").min())
.collect()
)

Wenn ich das ausführe, scheint mir der Speicher auszugehen, weil ich nur die Meldung „Killed“ ohne weitere Ausgabe erhalte. Wenn ich andererseits versuche, denselben Datenrahmen mit Pandas zu lesen und zu drucken:

Code: Select all

df = pd.read_csv(underlying_file_path, usecols=["bin_endtime", "strike_price", "opt_type", "expiry_date", "cp_fut"], parse_dates=True, low_memory=True)

Das funktioniert einwandfrei und ich kann die Datei problemlos drucken und verarbeiten. Das ist unheimlich, denn bisher ist mir immer aufgefallen, dass Polars größere Datenmengen verarbeiten kann als Pandas und dabei schneller ist. Warum könnte das passieren?
Details

Betriebssystem: Ubuntu 22.04.5 LTS
Pandas-Version: 2.3.3
Polars-Version: 1.35.2
Python-Version: 3.10.12
Dateigröße: 2.1G
Anzahl der Zeilen in der CSV-Datei: 42,39 Millionen

Ich möchte debuggen, was hier passiert, und falls es sich um eine echte Einschränkung von Polars handelt, melden Sie es den Entwicklern. Wie erkenne ich, wo etwas auseinanderfällt?
Bitte lassen Sie mich wissen, wenn weitere Details erforderlich sind.

1764827247

Anonymous

Ich habe eine komprimierte CSV-Datei, die als csv.gz komprimiert ist und die ich verarbeiten möchte. Ich wähle im Allgemeinen Polars, weil es speichereffizienter und schneller ist. Hier ist der Code, den ich verwende, um ihn langsam zu lesen und zu filtern, bevor ich eine andere Verarbeitung darauf ausführen kann.
[code]df = (
pl.scan_csv(underlying_file_path, try_parse_dates=True, low_memory=True)
.select(pl.col("bin", "price", "type", "date", "fut"))
.filter(pl.col("date") == pl.col("date").min())
.collect()
)
[/code]
Wenn ich das ausführe, scheint mir der Speicher auszugehen, weil ich nur die Meldung „Killed“ ohne weitere Ausgabe erhalte. Wenn ich andererseits versuche, denselben Datenrahmen mit Pandas zu lesen und zu drucken:
[code]df = pd.read_csv(underlying_file_path, usecols=["bin_endtime", "strike_price", "opt_type", "expiry_date", "cp_fut"], parse_dates=True, low_memory=True)
[/code]
Das funktioniert einwandfrei und ich kann die Datei problemlos drucken und verarbeiten. Das ist unheimlich, denn bisher ist mir immer aufgefallen, dass Polars größere Datenmengen verarbeiten kann als Pandas und dabei schneller ist. Warum könnte das passieren?
Details
[list]
[*]Betriebssystem: Ubuntu 22.04.5 LTS
[*]Pandas-Version: 2.3.3
[*]Polars-Version: 1.35.2
[*]Python-Version: 3.10.12
[*]Dateigröße: 2.1G
[*]Anzahl der Zeilen in der CSV-Datei: 42,39 Millionen
[/list]
Ich möchte debuggen, was hier passiert, und falls es sich um eine echte Einschränkung von Polars handelt, melden Sie es den Entwicklern. Wie erkenne ich, wo etwas auseinanderfällt?
Bitte lassen Sie mich wissen, wenn weitere Details erforderlich sind.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Warum dauert das Lesen großer Datenmengen aus einer SQLite-Datenbank mit SQLAlchemy länger als mit Pandas oder CSV?

Last post by Guest « 17 Jan 2025, 06:55
Posted in Python

by Guest » 17 Jan 2025, 06:55 » in Python

Ich möchte Millionen von Einträgen aus einer lokal gehosteten Datenbank in den Speicher von Python einlesen. Ich verwende SQLAlchemy mit SQLite. Ich indiziere mit einer Datums-/Uhrzeitzeichenfolge...

0 Replies

35 Views

Last post by Guest
17 Jan 2025, 06:55
Apache Flink Job, der versucht, über CDC -Quellanschluss von Mongo zu lesen, führt zu MongotimeoutException

Last post by Anonymous « 17 Feb 2025, 09:38
Posted in Java

by Anonymous » 17 Feb 2025, 09:38 » in Java

Ich versuche, Mongo -CDC -Connector als Quelle für meine Datenastream -Quelle in meinem Flink -Job zu verwenden. Ich verwende denselben Beispielcode wie .
Das ist mein Code:
MongoDBSource...

0 Replies

22 Views

Last post by Anonymous
17 Feb 2025, 09:38
Beim Herunterladen/Öffnen einer CSV-Datei mit Google Chrome wird die Erweiterung der CSV-Datei in .xls geändert

Last post by Anonymous « 04 Nov 2025, 07:02
Posted in HTML

by Anonymous » 04 Nov 2025, 07:02 » in HTML

Ich habe ein A-Tag in meiner HTML-Datei, das auf eine .csv-Datei verweist. Jedes Mal, wenn ich auf den Link klicke, wird dieselbe Datei mit der Erweiterung .xls heruntergeladen. Warum?

Ich habe...

0 Replies

9 Views

Last post by Anonymous
04 Nov 2025, 07:02
Wie bekomme ich für jede Datei im ZIP -Archiv mit PHP komprimierte und unkomprimierte Größe? [Duplikat]

Last post by Guest « 11 Feb 2025, 03:49
Posted in Php

by Guest » 11 Feb 2025, 03:49 » in Php

Ich bekomme ZIP -Archivinhalte mit Ziparchive -Klasse in PHP. Ich muss für jede darin komprimierte und unkomprimierte Größe anzeigen. Wie mache ich das?
$zip = new ZipArchive;...

0 Replies

28 Views

Last post by Guest
11 Feb 2025, 03:49
Verfügt Polars über eine ähnliche Funktion wie Pandas read_fwf zum Lesen von Dateien mit fester Breite?

Last post by Anonymous « 21 Oct 2025, 17:37
Posted in Python

by Anonymous » 21 Oct 2025, 17:37 » in Python

Verfügt Python Polars über eine ähnliche Funktion wie Pandas read_fwf (zum Lesen von Dateien mit fester Breite)? Es müssen TXT-Dateien mit Daten fester Breite des folgenden Typs gelesen und dann ein...

0 Replies

5 Views

Last post by Anonymous
21 Oct 2025, 17:37

Return to “Python”