Page 1 of 1

Wie speichere ich einen Spark-DataFrame mit Pyspark wieder in einem Google BigQuery-Projekt?

Posted: 22 Dec 2024, 02:24
by Anonymous
Ich lade einen Datensatz aus BigQuery und möchte nach einigen Transformationen den transformierten DataFrame wieder in BigQuery speichern. Gibt es eine Möglichkeit, dies zu tun?

So lade ich die Daten:

df = spark.read \
.format('bigquery') \
.option('table', 'publicdata.samples.shakespeare') \
.load()


Einige Transformationen:

df_new = df.select("word")


Und so versuche ich, die Daten als neue Tabelle in meinem Projektbereich zu speichern:

df_new \
.write \
.mode('overwrite') \
.format('bigquery') \
.save('my_project.some_schema.df_new_table')


Ist das überhaupt möglich? Gibt es eine Möglichkeit, direkt in BQ zu speichern?

ps: Ich weiß, dass das funktioniert, aber das ist nicht genau das, wonach ich suche:

df_new \
.write \
.mode('overwrite') \
.format('csv') \
.save('gs://my_bucket/df_new.csv')


Danke!