by Anonymous » 01 Jul 2025, 11:11
Ich habe einen S3 -Ort, an dem ich eine Liste von Verzeichnissen habe, und jedes Verzeichnis enthält ein CSV namens sample_file.csv . Ich versuche, diese Dateien mit einem Glob -Muster in pl.read_csv zu lesen, aber es wird nur eine Datei gelesen und den Rest still ignoriert. Das Problem wurde in den Problemen der Polars Git (Link) früher erwähnt, aber da scheint es gelöst worden zu sein und
ich möchte verstehen, dass ich etwas falsch mache. Unten ist mein Code < /p>
Code: Select all
import polars as pl
s3_bucket = "sample_bucket"
prefix = "abcd/efgh/ijkl/"
storage_options = {"expand": True}
df = pl.read_csv(source = f"s3://{s3_bucket}/{prefix}*/*.csv", storage_options = storage_options)
< /code>
Ich kann < /p>
änderndf = pl.read_csv(source = f"s3://{s3_bucket}/{prefix}*/*.csv", storage_options = storage_options)
< /code>
zu < /p>
df = pl.read_csv(source = f"s3://{s3_bucket}/{prefix}*/sample_csv.csv", storage_options = storage_options)
Und nichts ändert sich
Ich habe überprüft, und nur die im Präfix vorhandenen Sample_csv.csv aus dem ersten Verzeichnis.
scheint gut zu funktionieren
Code: Select all
import polars as pl
s3_bucket = "sample_bucket"
prefix = "abcd/efgh/ijkl/"
df = pl.scan_csv(source = f"s3://{s3_bucket}/{prefix}*/*.csv").collect()
Ohne die Storage_Options würde der LEAD_CSV den Glob nicht erweitern und FilenotFound -Fehler werfen, aber hier im Fall von Scan_csv auch nicht erforderlich. Seltsame Stammeskenntnisse über Polare, wenn es keinen Haken gibt, und ich mache nichts falsch !!
Was mache ich falsch?
Ich habe einen S3 -Ort, an dem ich eine Liste von Verzeichnissen habe, und jedes Verzeichnis enthält ein CSV namens sample_file.csv . Ich versuche, diese Dateien mit einem Glob -Muster in pl.read_csv zu lesen, aber es wird nur eine Datei gelesen und den Rest still ignoriert. Das Problem wurde in den Problemen der Polars Git (Link) früher erwähnt, aber da scheint es gelöst worden zu sein und [url=viewtopic.php?t=14917]ich möchte[/url] verstehen, dass ich etwas falsch mache. Unten ist mein Code < /p>
[code]import polars as pl
s3_bucket = "sample_bucket"
prefix = "abcd/efgh/ijkl/"
storage_options = {"expand": True}
df = pl.read_csv(source = f"s3://{s3_bucket}/{prefix}*/*.csv", storage_options = storage_options)
< /code>
Ich kann < /p>
änderndf = pl.read_csv(source = f"s3://{s3_bucket}/{prefix}*/*.csv", storage_options = storage_options)
< /code>
zu < /p>
df = pl.read_csv(source = f"s3://{s3_bucket}/{prefix}*/sample_csv.csv", storage_options = storage_options)
[/code]
Und nichts ändert sich
Ich habe überprüft, und nur die im Präfix vorhandenen Sample_csv.csv aus dem ersten Verzeichnis.[code]scan_csv[/code] scheint gut zu funktionieren
[code]import polars as pl
s3_bucket = "sample_bucket"
prefix = "abcd/efgh/ijkl/"
df = pl.scan_csv(source = f"s3://{s3_bucket}/{prefix}*/*.csv").collect()
[/code]
Ohne die Storage_Options würde der LEAD_CSV den Glob nicht erweitern und FilenotFound -Fehler werfen, aber hier im Fall von Scan_csv auch nicht erforderlich. Seltsame Stammeskenntnisse über Polare, wenn es keinen Haken gibt, und ich mache nichts falsch !!
Was mache ich falsch?