Warum ist Dask bei der Berechnung des Mittelwerts eines großen Datensatzes langsamer als Pandas und wie kann ich die Lei

Warum ist Dask bei der Berechnung des Mittelwerts eines großen Datensatzes langsamer als Pandas und wie kann ich die Lei ⇐ Python

1 post • Page 1 of 1

Guest

Warum ist Dask bei der Berechnung des Mittelwerts eines großen Datensatzes langsamer als Pandas und wie kann ich die Lei

Report
Quote

Post by Guest » 19 Jan 2025, 21:07

Ich lerne Dask, um meine Python-Projekte effizienter und skalierbarer zu machen. Um die Leistung besser zu verstehen, habe ich ein Skript geschrieben, das die Rechenzeit von Pandas und Dask bei der Berechnung des Mittelwerts einer Spalte in einem großen Datensatz vergleicht. Hier ist mein Code:

Code: Select all

import pandas as pd
import dask.dataframe as dd
import time
from memory_profiler import memory_usage

filename = "large_dataset_3.csv"

df_pd = pd.read_csv(filename)
df_dask = dd.read_csv(filename, blocksize=75e6)

start = time.time()
mean_pd = df_pd["points"].mean()
stop = time.time()
print(f"Pandas Mean Computation Time {stop - start:.5f} seconds")

start = time.time()
mean_dask = df_dask["points"].mean().compute(num_workers=4)
stop = time.time()
print(f"Dask Mean Computation Time {stop - start:.5f} seconds")

Wenn ich dieses Skript ausführe, stelle ich fest, dass Pandas den Mittelwert in etwa 0,02 Sekunden berechnet, während Dask mehr als 4,5 Sekunden benötigt. Dieses Ergebnis ist überraschend, da ich erwartet hatte, dass Dask aufgrund seiner Parallelverarbeitungsfähigkeiten schneller sein würde.
Für den Kontext:
Der Datensatz (large_dataset_3.csv) enthält 100 Millionen Zeilen mit einer Gesamtgröße von 292,4 MB.
Meine Systemspezifikationen sind:
Prozessor: Intel ® Core™ i5-8365U × 8 (4 Kerne, 8 Threads)
RAM: 16 GB
Meine Fragen:
Warum ist Dask in diesem Szenario langsamer als Pandas?
Gibt es Optimierungen oder Konfigurationen, die ich anwenden kann, um die Leistung von Dask zu verbessern?

1737317274

Guest

Ich lerne Dask, um meine Python-Projekte effizienter und skalierbarer zu machen. Um die Leistung besser zu verstehen, habe ich ein Skript geschrieben, das die Rechenzeit von Pandas und Dask bei der Berechnung des Mittelwerts einer Spalte in einem großen Datensatz vergleicht. Hier ist mein Code:
[code]import pandas as pd
import dask.dataframe as dd
import time
from memory_profiler import memory_usage

filename = "large_dataset_3.csv"

df_pd = pd.read_csv(filename)
df_dask = dd.read_csv(filename, blocksize=75e6)

start = time.time()
mean_pd = df_pd["points"].mean()
stop = time.time()
print(f"Pandas Mean Computation Time {stop - start:.5f} seconds")

start = time.time()
mean_dask = df_dask["points"].mean().compute(num_workers=4)
stop = time.time()
print(f"Dask Mean Computation Time {stop - start:.5f} seconds")
[/code]
Wenn ich dieses Skript ausführe, stelle ich fest, dass Pandas den Mittelwert in etwa 0,02 Sekunden berechnet, während Dask mehr als 4,5 Sekunden benötigt. Dieses Ergebnis ist überraschend, da ich erwartet hatte, dass Dask aufgrund seiner Parallelverarbeitungsfähigkeiten schneller sein würde.
Für den Kontext:
Der Datensatz (large_dataset_3.csv) enthält 100 Millionen Zeilen mit einer Gesamtgröße von 292,4 MB.
Meine Systemspezifikationen sind:
[b]Prozessor[/b]: Intel ® Core™ i5-8365U × 8 (4 Kerne, 8 Threads)
[b]RAM[/b]: 16 GB
Meine Fragen:
Warum ist Dask in diesem Szenario langsamer als Pandas?
Gibt es Optimierungen oder Konfigurationen, die ich anwenden kann, um die Leistung von Dask zu verbessern?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Effiziente Verarbeitung eines großen Datensatzes mithilfe von Paginierung und Multithreading in Java

Last post by Guest « 20 Jan 2025, 13:37
Posted in Java

by Guest » 20 Jan 2025, 13:37 » in Java

Ich arbeite an einer Java-Anwendung, bei der ich einen großen Datensatz aus aus der Datenbank abgerufenen Zeilen verarbeiten muss. Hier ist die Beispielsituation:
class Example {
@Autowired
private...

0 Replies

22 Views

Last post by Guest
20 Jan 2025, 13:37
Modellierung eines großen Datensatzes mit einer lorentzischen Funktion

Last post by Anonymous « 21 Feb 2025, 02:00
Posted in Python

by Anonymous » 21 Feb 2025, 02:00 » in Python

Ich versuche, einen großen Datensatz mit der Lorentzischen Funktion zu modellieren. PNG />
Ich konnte dies nicht tun, der Datensatz, den ich auf einem grundlegenden Pyplot gesehen habe, hat es...

0 Replies

12 Views

Last post by Anonymous
21 Feb 2025, 02:00
Warum ist loc [] in Pandas langsamer als Iloc []?

Last post by Anonymous « 13 May 2025, 05:07
Posted in Python

by Anonymous » 13 May 2025, 05:07 » in Python

Mir ist aufgefallen, dass die Verwendung von ILOC [] bei der Auswahl von Zeilen aus einem großen Datenrahmen tendenziell schneller als loc []

0 Replies

11 Views

Last post by Anonymous
13 May 2025, 05:07
Schnellere Methoden zum Erstellen von Geodataframe aus einem Dask- oder Pandas -Datenframe

Last post by Guest « 28 Jan 2025, 05:29
Posted in Python

by Guest » 28 Jan 2025, 05:29 » in Python

Problem
Ich versuche, ein sehr großes Blockmodell (5,8 GB CSV -Datei) mit Zentroid -X-, Y- und Z -Koordinaten mit einem zu klemmen Höhenraster. Ich versuche nur die Blöcke zu erhalten, die direkt...

0 Replies

36 Views

Last post by Guest
28 Jan 2025, 05:29
Verbessern Sie die Rechenzeit und den Speicherverbrauch bei der Berechnung einer großen Matrix mit vier Schleifen [Pytho

Last post by Guest « 30 Dec 2024, 18:29
Posted in Python

by Guest » 30 Dec 2024, 18:29 » in Python

Ich möchte eine Matrix G berechnen, deren Elemente ein Skalar sind und wie folgt berechnet werden:

Ich möchte diese Matrix für ein großes n > 10000, d>30 berechnen. Mein Code ist unten, aber er...

0 Replies

27 Views

Last post by Guest
30 Dec 2024, 18:29

Return to “Python”