Datensatz mit Polaren, der größer als der Speicher ist

Datensatz mit Polaren, der größer als der Speicher ist ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Datensatz mit Polaren, der größer als der Speicher ist

Report
Quote

Post by Anonymous » 31 Oct 2025, 23:27

Ich habe eine Parkettdatei mit einem Datensatz, der wie folgt aussieht:

Code: Select all

import polars as pl

df = pl.LazyFrame(
{
"target": [
[1.0, 2.0],
[3.0, 4.0],
],
"point_cloud": [
[
[7.0, 8.0],
[9.0, 10.0],
],
[
[9.0, 10.0],
],
],
},
schema={
"target": pl.Array(pl.Float32, 2),
"point_cloud": pl.List(pl.Array(pl.Float32, 2)),
},
)

Die Datei hat 4 Millionen Zeilen und ist 20 GB groß (passt nicht in den RAM).
Ich versuche, die Größe von Punktwolken wie folgt zu ermitteln:

Code: Select all

df = (
pl.scan_parquet(dataset).select(size=pl.col("point_cloud").list.len()).collect()
)

Aber mein Programm hat nicht mehr genügend Speicher und stirbt. Ich habe versucht, „collect(engine="streaming") zu ändern, aber das Ergebnis ist das gleiche.
Ich bin verwirrt, denn wenn ich versuche, z. B. Wenn Sie die x-Koordinate aller Ziele verwenden, funktioniert es einwandfrei (und ist superschnell):

Code: Select all

df = pl.scan_parquet(dataset).select(x=pl.col("target").arr.get(0)).collect()

Kann ich dabei Hilfe bekommen?
Vielen Dank
BEARBEITEN
Dies ist ein Diagramm mit der Verteilung der Länge jeder Liste (erstellt durch Ausführen desselben Codes auf einem Computer mit genügend RAM, um den gesamten Datensatz aufzunehmen).

1761949652

Anonymous

Ich habe eine Parkettdatei mit einem Datensatz, der wie folgt aussieht:
[code]import polars as pl

df = pl.LazyFrame(
{
"target": [
[1.0, 2.0],
[3.0, 4.0],
],
"point_cloud": [
[
[7.0, 8.0],
[9.0, 10.0],
],
[
[9.0, 10.0],
],
],
},
schema={
"target": pl.Array(pl.Float32, 2),
"point_cloud": pl.List(pl.Array(pl.Float32, 2)),
},
)
[/code]
Die Datei hat 4 Millionen Zeilen und ist 20 GB groß (passt nicht in den RAM).
Ich versuche, die Größe von Punktwolken wie folgt zu ermitteln:
[code]df = (
pl.scan_parquet(dataset).select(size=pl.col("point_cloud").list.len()).collect()
)
[/code]
Aber mein Programm hat nicht mehr genügend Speicher und stirbt. Ich habe versucht, „collect(engine="streaming") zu ändern, aber das Ergebnis ist das gleiche.
Ich bin verwirrt, denn wenn ich versuche, z. B. Wenn Sie die x-Koordinate aller Ziele verwenden, funktioniert es einwandfrei (und ist superschnell):
[code]df = pl.scan_parquet(dataset).select(x=pl.col("target").arr.get(0)).collect()
[/code]
Kann ich dabei Hilfe bekommen?
Vielen Dank
[b]BEARBEITEN[/b]
Dies ist ein Diagramm mit der Verteilung der Länge jeder Liste (erstellt durch Ausführen desselben Codes auf einem Computer mit genügend RAM, um den gesamten Datensatz aufzunehmen).
[img]https://i.sstatic.net/FyYgM4RV.jpg[/img]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann ich einen Datensatz Datensatz für Datensatz in einem Spring Batch Tasklet-Job beibehalten?

Last post by Anonymous « 24 Dec 2024, 04:17
Posted in Java

by Anonymous » 24 Dec 2024, 04:17 » in Java

Ich entwickle einen Spring Batch Tasklet-Job, der die folgenden Schritte ausführt:

Ruft Dateien aus einem Ordner ab.
Verarbeitet die Dateidatensätze.
Validiert jeden Datensatz.
Behält die Daten...

0 Replies

39 Views

Last post by Anonymous
24 Dec 2024, 04:17
Wie kann ich einen Datensatz Datensatz für Datensatz in einem Spring Batch Tasklet Job beibehalten?

Last post by Guest « 05 Jan 2025, 06:28
Posted in Java

by Guest » 05 Jan 2025, 06:28 » in Java

Ich entwickle einen Spring Batch Tasklet-Job, der die folgenden Schritte ausführt:

Ruft Dateien aus einem Ordner ab.
Verarbeitet die Dateidatensätze.
Validiert jeden Datensatz.
Behält die Daten...

0 Replies

38 Views

Last post by Guest
05 Jan 2025, 06:28
Wie man umwandelt, wo größer als die Bedingungen in den aktiven Datensatz von Codesigniter sind

Last post by Anonymous « 03 Jun 2025, 08:04
Posted in Php

by Anonymous » 03 Jun 2025, 08:04 » in Php

das ist was ich will:
SELECT DISTINCT first_name,last_name
FROM employees e
INNER JOIN salaries s ON e.emp_no = s.emp_no
WHERE e.birth_date > '1963-01-01'
AND s.salary>150000

Ich habe dies...

0 Replies

11 Views

Last post by Anonymous
03 Jun 2025, 08:04
Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Last post by Guest « 03 Jan 2025, 10:35
Posted in Python

by Guest » 03 Jan 2025, 10:35 » in Python

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.
month | value | observation |...

0 Replies

26 Views

Last post by Guest
03 Jan 2025, 10:35
Optimieren Sie den Prozess der Verarbeitung von Feather-Dateien, die größer als der Speicher sind, mithilfe von Python (

Last post by Guest « 03 Jan 2025, 11:20
Posted in Python

by Guest » 03 Jan 2025, 11:20 » in Python

Ich speichere Aktienkurse für verschiedene Entitäten als separate Feather-Dateien im S3-Bucket. Auf hoher Ebene sieht der Inhalt jeder Federdatei wie folgt aus.
month | value | observation |...

0 Replies

20 Views

Last post by Guest
03 Jan 2025, 11:20

Return to “Python”