Wie kann ich einen großen Polars-Datenrahmen partitionieren und jeden einzelnen Datenrahmen parallel in einer CSV-Datei Python

Python-Programme
Anonymous
 Wie kann ich einen großen Polars-Datenrahmen partitionieren und jeden einzelnen Datenrahmen parallel in einer CSV-Datei

Post by Anonymous »

Ich habe einen großen Polars-Datenrahmen mit vielen Gruppen. Jetzt möchte ich den Datenrahmen nach Gruppen partitionieren und alle Unterdatenrahmen speichern. Ich kann das ganz einfach wie folgt machen:

Code: Select all

for d in df.partition_by(["group1", "group2"]):
d.write_csv(f"~/{d[0, 'group1']}_{d[0, 'group2']}.csv")
Der obige Ansatz ist jedoch sequentiell und langsam, wenn die df sehr groß ist und viele Partitionen hat.
Gibt es eine native Polars-Methode, um sie zu parallelisieren (der Codeabschnitt oben)?
Wenn nicht, wie kann ich es stattdessen auf eine native Python-Methode tun?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post