by Anonymous » 06 Jan 2025, 06:01
Das DF enthält 100 Millionen Zeilen und die Spalten „group_by“ sind etwa 25–30. Gibt es eine Möglichkeit, diesen Vorgang von hier aus zu beschleunigen? oder das ist das Beste, was ich bekommen kann.
Code: Select all
import polars as pl
import numpy as np
rows = 100000000
n_cols = 30
df = pl.DataFrame(np.random.randint(0, 100, size=(n_cols, rows)), schema=[str(x) for x in range(n_cols)])
x_list = [1,2,3]
df = df.sort('0').group_by([str(x) for x in range(1,n_cols)])
pl.concat([df.head(x).with_columns(pl.lit(x).alias('x').cast(pl.Int8)) for x in x_list])
Das DF enthält 100 Millionen Zeilen und die Spalten „group_by“ sind etwa 25–30. Gibt es eine Möglichkeit, diesen Vorgang von hier aus zu beschleunigen? oder das ist das Beste, was ich bekommen kann.
[code]import polars as pl
import numpy as np
rows = 100000000
n_cols = 30
df = pl.DataFrame(np.random.randint(0, 100, size=(n_cols, rows)), schema=[str(x) for x in range(n_cols)])
x_list = [1,2,3]
df = df.sort('0').group_by([str(x) for x in range(1,n_cols)])
pl.concat([df.head(x).with_columns(pl.lit(x).alias('x').cast(pl.Int8)) for x in x_list])
[/code]