Ich nehme eine große ZIP -Datei in Azure -Datenbank (345 GB Zip -Datei mit einer einzigen 1,5 -TB -CSV mit ~ 3 Milliarden Zeilen) ein. Es ist beabsichtigt, den CSV in eine Delta -Tabelle für eine schnellere Einnahme in einer Datenpipeline umzuwandeln. Beide werden im Azure -Blob -Speicher gespeichert. pd.read_csv (ChunkSize = ChunkSize) < /code> < /li>
[*] Gehen Sie jeden Chunk im Iterator durch. storage
[*]clear memory
With CHUNKSIZE=5_000_000 I get this error at iteration 83 (415 million rows processed)
org.apache.spark.SparkException: Aufgrund des Bühnenversagens abgebrochen Erwägen Sie, Spark.rpc.Message.Maxsize zu erhöhen oder mit Broadcast -Variablen für große Werte zu verwenden. />
org.apache.spark.sparkKexception: Job wegen des Bühnenversagens: Serialisierte Aufgabe 43293: 250 war 282494392 Bytes, die Max erlaubt: Spark.Message.maxSize (2684354556). Erwägen Sie, Spark.rpc.message.maxSize zu erhöhen oder zu Sendungsvariablen für große Werte zu verwenden. Konfiguration: < /p>
Für den Fall, dass sich das Gerät in Bytes irgendwie befindet
Beide geben mir immer noch den gleichen Fehler, obwohl ich beim Drucken von spark.conf.get ("spark.rpc.message.maxSize") die neue Einstellung zeigt
Einstellung, die die Instanzinstanz mit der Sparkinstanz mit der Sparkinstanz einstellen, die die Sparkinstanz verwendet, um die Spark -Instanz zu verwenden. spark.conf.set ("spark.rpc.message.maxsize", "512") , der mir einen Fehler gab, in dem er sagte, der Parameter kann nicht geändert werden, nachdem Spark instanziiert wurde
Ich nehme eine große ZIP -Datei in Azure -Datenbank (345 GB Zip -Datei mit einer einzigen 1,5 -TB -CSV mit ~ 3 Milliarden Zeilen) ein. Es ist beabsichtigt, den CSV in eine Delta -Tabelle für eine schnellere Einnahme in einer Datenpipeline umzuwandeln. Beide werden im Azure -Blob -Speicher gespeichert. pd.read_csv (ChunkSize = ChunkSize) < /code> < /li> [*] Gehen Sie jeden Chunk im Iterator durch. storage [*]clear memory
With CHUNKSIZE=5_000_000 I get this error at iteration 83 (415 million rows processed)
org.apache.spark.SparkException: Aufgrund des Bühnenversagens abgebrochen Erwägen Sie, Spark.rpc.Message.Maxsize zu erhöhen oder mit Broadcast -Variablen für große Werte zu verwenden. /> org.apache.spark.sparkKexception: Job wegen des Bühnenversagens: Serialisierte Aufgabe 43293: 250 war 282494392 Bytes, die Max erlaubt: Spark.Message.maxSize (2684354556). Erwägen Sie, Spark.rpc.message.maxSize zu erhöhen oder zu Sendungsvariablen für große Werte zu verwenden. Konfiguration: < /p> [list] [*] 2 Arbeiter standard_ds3_v2 < /code> 14 GB Speicher, 4 Kerne < /li> Treiber standard_ds13_v2 < /code> 56 GB -Speicher, 8 Cores < /li> < /> < /ul> < /> vorgeschlagen[code]SparkSession.builder.config("spark.rpc.message.maxSize", "536870912")[/code] Für den Fall, dass sich das Gerät in Bytes irgendwie befindet [*] Beide geben mir immer noch den gleichen Fehler, obwohl ich beim Drucken von spark.conf.get ("spark.rpc.message.maxSize") die neue Einstellung zeigt [*] Einstellung, die die Instanzinstanz mit der Sparkinstanz mit der Sparkinstanz einstellen, die die Sparkinstanz verwendet, um die Spark -Instanz zu verwenden. spark.conf.set ("spark.rpc.message.maxsize", "512") , der mir einen Fehler gab, in dem er sagte, der Parameter kann nicht geändert werden, nachdem Spark instanziiert wurde [/list] Ganzer Codeblock: [code]def convert_zip_to_delta(snapshot_date: str, start_chunk: int = 0):
Ich habe derzeit das Problem, dass ich nach einem Artefakt in Jenkins suche. Wenn dieses Artefakt nicht gefunden werden kann, sollte ein 404 zurückkommen. Bisher funktioniert das ganz gut. Leider...
Ich bekomme diesen Fehler vom Spark mit Hadoop und PySpark
ApplicationMaster: Waiting for spark context initialization...
25/05/12 23:56:11 INFO ApplicationMaster: Final app status: FAILED,...
Ich bin neu im Stoff und habe ein paar Udemy -Kurse durchgeführt. Ich bin mir jedoch nicht sicher, wie ich dieses Problem angehen soll. Die Transformationen sind kleine, umgebende Spalten...
Es wird der unten angegebene Fehler angezeigt, wenn eine Vue-Datei, die Code im Tag enthält, gepusht wird. Die gesamte Ordnerstruktur ist nur unter 2 MB groß. Alle js- und json-Dateien können...
Ich habe eine Java -Spark -Anwendung, die Daten von Kafka erhält, einige Arbeiten an den Daten ausführt und dann mit dem Befehl toundswrite () Parquetdateien in S3 speichert. Bis zu diesem Zeitpunkt...