Wie speichere ich einen Spark-DataFrame mit Pyspark wieder in einem Google BigQuery-Projekt?Python

Python-Programme
Anonymous
 Wie speichere ich einen Spark-DataFrame mit Pyspark wieder in einem Google BigQuery-Projekt?

Post by Anonymous »

Ich lade einen Datensatz aus BigQuery und möchte nach einigen Transformationen den transformierten DataFrame wieder in BigQuery speichern. Gibt es eine Möglichkeit, dies zu tun?

So lade ich die Daten:

df = spark.read \
.format('bigquery') \
.option('table', 'publicdata.samples.shakespeare') \
.load()


Einige Transformationen:

df_new = df.select("word")


Und so versuche ich, die Daten als neue Tabelle in meinem Projektbereich zu speichern:

df_new \
.write \
.mode('overwrite') \
.format('bigquery') \
.save('my_project.some_schema.df_new_table')


Ist das überhaupt möglich? Gibt es eine Möglichkeit, direkt in BQ zu speichern?

ps: Ich weiß, dass das funktioniert, aber das ist nicht genau das, wonach ich suche:

df_new \
.write \
.mode('overwrite') \
.format('csv') \
.save('gs://my_bucket/df_new.csv')


Danke!

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post