Warum filtert diese Polare so viel langsamer als mein Pandas-Äquivalent? - Programmiererforum

Warum filtert diese Polare so viel langsamer als mein Pandas-Äquivalent? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Warum filtert diese Polare so viel langsamer als mein Pandas-Äquivalent?

Report
Quote

Post by Anonymous » 31 Oct 2025, 23:00

Ich versuche eine Funktion in Polaren und sie ist deutlich langsamer als mein Pandas-Äquivalent.
Meine Pandas-Funktion ist die folgende:

Code: Select all

import pandas as pd
import time
import numpy as np

target_value = 0.5
data = np.random.rand(1000,100)
df = pd.DataFrame(data)

run_times = []
for i in range(100):
st = time.perf_counter()
df_filtered = df.loc[(df[0] - target_value).abs() == (df[0] - target_value).abs().min()]
run_time = time.perf_counter() - st
run_times.append(run_time)
print(f"avg pandas run: {sum(run_times)/len(run_times)}")

und Polaren ist das Folgende

Code: Select all

import polars as pl
import time
import numpy as np

target_value = 0.5
data = np.random.rand(1000,100)
df = pl.DataFrame(data)

run_times = []
for i in range(100):
st = time.perf_counter()
df = df.with_columns(abs_diff = (pl.col('column_0')-target_value).abs())
df_filtered = df.filter(pl.col('abs_diff') == df['abs_diff'].min())
run_time = time.perf_counter() - st
run_times.append(run_time)
print(f"avg polars run: {sum(run_times)/len(run_times)}")

Meine echten Datensätze bestehen aus 1.000 bis 10.000 Zeilen und 100 Spalten, und ich muss viele verschiedene Datensätze filtern. Bei einem Beispiel der df-Form (1_000, 100) sehe ich, dass meine Pandas-Version um Größenordnungen schneller ist (0,0006 s für Pandas und 0,0037 s für Polaren), was unerwartet war. Gibt es eine effizientere Möglichkeit, meine Polarabfrage zu schreiben? Oder wird nur erwartet, dass Pandas mit kleineren Datensätzen dieser Größe eine bessere Leistung erbringen?
Eine Sache ist zu beachten: Wenn ich es mit zwei Spalten teste, ist Polars schneller, und je mehr Spalten ich hinzufüge, desto langsamer ist Polars. Andererseits beginnt Polars, Pandas nach etwa 500_000 Zeilen vs. 100 Spalten zu übertreffen.
Außerdem müsste ich in meinem tatsächlichen Anwendungsfall mehrere Zeilen zurückgeben, die dem nächstkommenden Wert entsprechen.
Ich bin mir nicht sicher, ob das wichtig ist, aber für zusätzlichen Kontext verwende ich Python auf einem Linux-Server.

1761948042

Anonymous

Ich versuche eine Funktion in Polaren und sie ist deutlich langsamer als mein Pandas-Äquivalent.
Meine Pandas-Funktion ist die folgende:
[code]import pandas as pd
import time
import numpy as np

target_value = 0.5
data = np.random.rand(1000,100)
df = pd.DataFrame(data)

run_times = []
for i in range(100):
st = time.perf_counter()
df_filtered = df.loc[(df[0] - target_value).abs() == (df[0] - target_value).abs().min()]
run_time = time.perf_counter() - st
run_times.append(run_time)
print(f"avg pandas run: {sum(run_times)/len(run_times)}")
[/code]
und Polaren ist das Folgende
[code]import polars as pl
import time
import numpy as np

target_value = 0.5
data = np.random.rand(1000,100)
df = pl.DataFrame(data)

run_times = []
for i in range(100):
st = time.perf_counter()
df = df.with_columns(abs_diff = (pl.col('column_0')-target_value).abs())
df_filtered = df.filter(pl.col('abs_diff') == df['abs_diff'].min())
run_time = time.perf_counter() - st
run_times.append(run_time)
print(f"avg polars run: {sum(run_times)/len(run_times)}")
[/code]
Meine echten Datensätze bestehen aus 1.000 bis 10.000 Zeilen und 100 Spalten, und ich muss viele verschiedene Datensätze filtern. Bei einem Beispiel der df-Form (1_000, 100) sehe ich, dass meine Pandas-Version um Größenordnungen schneller ist (0,0006 s für Pandas und 0,0037 s für Polaren), was unerwartet war. Gibt es eine effizientere Möglichkeit, meine Polarabfrage zu schreiben? Oder wird nur erwartet, dass Pandas mit kleineren Datensätzen dieser Größe eine bessere Leistung erbringen?
Eine Sache ist zu beachten: Wenn ich es mit zwei Spalten teste, ist Polars schneller, und je mehr Spalten ich hinzufüge, desto langsamer ist Polars. Andererseits beginnt Polars, Pandas nach etwa 500_000 Zeilen vs. 100 Spalten zu übertreffen.
Außerdem müsste ich in meinem tatsächlichen Anwendungsfall mehrere Zeilen zurückgeben, die dem nächstkommenden Wert entsprechen.
Ich bin mir nicht sicher, ob das wichtig ist, aber für zusätzlichen Kontext verwende ich Python auf einem Linux-Server.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Warum ist dieser C ++ - Code viel langsamer als Rost?

Last post by Guest « 24 Feb 2025, 03:01
Posted in C++

by Guest » 24 Feb 2025, 03:01 » in C++

Ich habe zwei identische Programme erstellt (eine in Rost und eine in C ++). Sie sind einzelne Gewinde und es gibt keine Haufen Zuweisungen. C ++ - Version (kompiliert mit MSVC /O2 -Release oder GCC)...

0 Replies

29 Views

Last post by Guest
24 Feb 2025, 03:01
Warum sind Prototypenerweiterungen so viel langsamer als Funktionen?

Last post by Anonymous « 31 Oct 2025, 02:26
Posted in JavaScript

by Anonymous » 31 Oct 2025, 02:26 » in JavaScript

Ich habe die Geschwindigkeit normaler JavaScript-Funktionen und Prototyp-Erweiterungen verglichen.

function NormalizeSpace(str)
{
return str.trim().replace(/\s+/g, );
}...

0 Replies

16 Views

Last post by Anonymous
31 Oct 2025, 02:26
Cython Groupby -Funktion viel langsamer als eine ähnliche Numba -Funktion

Last post by Guest « 08 Feb 2025, 03:46
Posted in Python

by Guest » 08 Feb 2025, 03:46 » in Python

Ich habe eine sehr grundlegende Gruppe nach Funktion, die ich in einem Cython -Objekt verwenden möchte, aber es ist etwas wie 400 -mal langsamer als eine ähnliche Funktion in Python, die von Numba...

0 Replies

44 Views

Last post by Guest
08 Feb 2025, 03:46
Keras Trainingsgeschwindigkeit mit Pytorch -Backend ist viel langsamer als mit Tensorflow

Last post by Guest « 14 Feb 2025, 04:37
Posted in Python

by Guest » 14 Feb 2025, 04:37 » in Python

Ich bin unter nativen Fenstern und habe zuvor alte Keras mit Tensorflow 2.10 (GPU beschleunigt) verwendet. Ich wollte Keras 3 mit Pytorch -Backend probieren. mehr als 2 Minuten mit TF und über 20...

0 Replies

53 Views

Last post by Guest
14 Feb 2025, 04:37
Warum ist Array -Manipulation in Jax viel langsamer?

Last post by Anonymous « 10 May 2025, 22:02
Posted in Python

by Anonymous » 10 May 2025, 22:02 » in Python

Ich arbeite an der Umwandlung einer transformationsortigen numerischen Pipeline von Numpy in Jax, um die JIT-Beschleunigung zu nutzen. Ich habe jedoch festgestellt, dass einige grundlegende...

0 Replies

19 Views

Last post by Anonymous
10 May 2025, 22:02

Return to “Python”