Wie kann der Vorgang des Wiederholens der ersten n Zeilen für jede Gruppe nach der Gruppe um beschleunigt werden?

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Wie kann der Vorgang des Wiederholens der ersten n Zeilen für jede Gruppe nach der Gruppe um beschleunigt werden?

by Anonymous » 06 Jan 2025, 06:01

Das DF enthält 100 Millionen Zeilen und die Spalten „group_by“ sind etwa 25–30. Gibt es eine Möglichkeit, diesen Vorgang von hier aus zu beschleunigen? oder das ist das Beste, was ich bekommen kann.

Code: Select all

import polars as pl
import numpy as np

rows = 100000000
n_cols = 30
df = pl.DataFrame(np.random.randint(0, 100, size=(n_cols, rows)), schema=[str(x) for x in range(n_cols)])
x_list = [1,2,3]

df = df.sort('0').group_by([str(x) for x in range(1,n_cols)])
pl.concat([df.head(x).with_columns(pl.lit(x).alias('x').cast(pl.Int8)) for x in x_list])

Top