Ich habe einen großen Polars-Datenrahmen mit vielen Gruppen. Jetzt möchte ich den Datenrahmen nach Gruppen partitionieren und alle Unterdatenrahmen speichern. Ich kann das ganz einfach wie folgt machen:
Code: Select all
for d in df.partition_by(["group1", "group2"]):
d.write_csv(f"~/{d[0, 'group1']}_{d[0, 'group2']}.csv")
Der obige Ansatz ist jedoch sequentiell und langsam, wenn die df sehr groß ist und viele Partitionen hat.
Gibt es eine native Polars-Methode, um sie zu parallelisieren (der Codeabschnitt oben)?
Wenn nicht, wie kann ich es stattdessen auf eine native Python-Methode tun?