Ich habe eine Reihe verschiedener Ansätze ausprobiert, aber bei jedem Ansatz erzeuge ich am Ende Metadatendateien für ein einzelnes Fenster, die Teildaten enthalten würden (in einem bestimmten Fenster geschriebene Parkettdateinamen, die über mehrere Metadatendateien verteilt sind).
Unten ist meine gewünschte Ausgabe:
Code: Select all
Metadata Filename: gs://my-bucket/path/to/my/metadata-file/metadata-20240117T12:40-20240117T12:45.txt
Metadata File Content:
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-0.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-1.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-2.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-3.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-4.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-5.parquet
Was mache ich hier falsch?
Hier ist mein Code, der das Parkettschreiben übernimmt: https://gist.github.com/iamadhee/c1a3c9 ... e5a006d0e5