Wie schreibe ich alle am Ende jedes Fensters geschriebenen Dateinamen in eine Metadatendatei?
Posted: 17 Jan 2025, 10:02
Mein Anwendungsfall besteht darin, alle Parquet-Dateinamen in eine separate Metadatendatei zu schreiben, nachdem ich sie am Ende jedes Fensters in GCS geschrieben habe.
Ich habe eine Reihe verschiedener Ansätze ausprobiert, aber bei jedem Ansatz erzeuge ich am Ende Metadatendateien für ein einzelnes Fenster, die Teildaten enthalten würden (in einem bestimmten Fenster geschriebene Parkettdateinamen, die über mehrere Metadatendateien verteilt sind).
Unten ist meine gewünschte Ausgabe:
Die Ansätze, die ich ausprobiert habe, würden dieselben sechs Dateinamen auf drei bis vier verschiedene Metadatendateien verteilen.
Was mache ich hier falsch?
Hier ist mein Code, der das Parkettschreiben übernimmt: https://gist.github.com/iamadhee/c1a3c9 ... e5a006d0e5
Ich habe eine Reihe verschiedener Ansätze ausprobiert, aber bei jedem Ansatz erzeuge ich am Ende Metadatendateien für ein einzelnes Fenster, die Teildaten enthalten würden (in einem bestimmten Fenster geschriebene Parkettdateinamen, die über mehrere Metadatendateien verteilt sind).
Unten ist meine gewünschte Ausgabe:
Code: Select all
Metadata Filename: gs://my-bucket/path/to/my/metadata-file/metadata-20240117T12:40-20240117T12:45.txt
Metadata File Content:
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-0.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-1.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-2.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-3.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-4.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-5.parquet
Was mache ich hier falsch?
Hier ist mein Code, der das Parkettschreiben übernimmt: https://gist.github.com/iamadhee/c1a3c9 ... e5a006d0e5