Wie kann die Leistung von spark.write für JDBC verbessert werden?Python

Python-Programme
Anonymous
 Wie kann die Leistung von spark.write für JDBC verbessert werden?

Post by Anonymous »

Ich habe mit einer Sache zu kämpfen. Ich habe 700 MB CSV, das über 6 Millionen Zeilen enthält. Nach dem Filtern enthält es ~3 Millionen.
Ich muss es über JDBC direkt in Azure SQL schreiben. Es ist sehr langsam und benötigt 20 Minuten für die Eingabe von 3 Millionen Zeilen.
Mein Cluster verfügt über 14 GB RAM und 4 Kerne. Hier ist mein Code.

Code: Select all

(clearedDF.repartition(4)
.write
.format("jdbc")
.option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver")
.option("batchsize", 10000)
.option("url", jdbcUrl)
.option("dbtable", "dbo.weather")
.option("user", properties["user"])
.option("password", properties["password"])
.mode("append")
.save()
)
Gibt es eine Möglichkeit, diesen Prozess zu beschleunigen?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post