Programmiererforum

Quote Anonymous

by Anonymous » 06 Jan 2025, 06:01

Das DF enthält 100 Millionen Zeilen und die Spalten „group_by“ sind etwa 25–30. Gibt es eine Möglichkeit, diesen Vorgang von hier aus zu beschleunigen? oder das ist das Beste, was ich bekommen kann.

Code: Select all

import polars as pl
import numpy as np

rows = 100000000
n_cols = 30
df = pl.DataFrame(np.random.randint(0, 100, size=(n_cols, rows)), schema=[str(x) for x in range(n_cols)])
x_list = [1,2,3]

df = df.sort('0').group_by([str(x) for x in range(1,n_cols)])
pl.concat([df.head(x).with_columns(pl.lit(x).alias('x').cast(pl.Int8)) for x in x_list])

Wie kann der Vorgang des Wiederholens der ersten n Zeilen für jede Gruppe nach der Gruppe um beschleunigt werden?

Post a reply

Expand view Topic review: Wie kann der Vorgang des Wiederholens der ersten n Zeilen für jede Gruppe nach der Gruppe um beschleunigt werden?