PySpark FileAlreadyExistsException: Ausgabeverzeichnis kann während saveAsTextFile nicht überschrieben werden

PySpark FileAlreadyExistsException: Ausgabeverzeichnis kann während saveAsTextFile nicht überschrieben werden ⇐ Python

1 post • Page 1 of 1

Guest

PySpark FileAlreadyExistsException: Ausgabeverzeichnis kann während saveAsTextFile nicht überschrieben werden

Post by Guest » 05 Jan 2025, 07:45

Ich arbeite an einem PySpark-Skript, um eine einfache Wortzählung durchzuführen. Mein Skript läuft einwandfrei, aber beim Versuch, die Ergebnisse mit saveAsTextFile zu speichern, tritt ein Fehler auf (jetzt bin ich auf Ubuntu). Hier ist der Fehler, den ich erhalte:

Code: Select all

py4j.protocol.Py4JJavaError: An error occurred while calling o48.saveAsTextFile.
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/pyspark_python/wordcount/output_new already exists

Hier sind die Schritte, die ich bisher unternommen habe:
Überprüft, dass das Ausgabeverzeichnis keine Daten enthält (ls zeigt an, dass es leer ist).
Das Verzeichnis wurde mit rm -r und mkdir -p gelöscht und neu erstellt.
Es wurde sichergestellt, dass keine anderen Spark-Jobs ausgeführt werden (ps aux | grep spark).
Trotzdem , der Fehler bleibt bestehen, wenn ich es erneut ausführe das Skript.
Hier ist der Code, den ich verwende:

Code: Select all

from pyspark import SparkConf, SparkContext
import os

def main(input_file, output_dir):
# Configuration Spark
conf = SparkConf().setAppName("WordCountTask").setMaster("local[*]")
sc = SparkContext(conf=conf)

# Lecture du fichier d'entrée
text_file = sc.textFile(input_file)

# Comptage des mots
counts = (
text_file.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
)

# Sauvegarde des résultats
if not os.path.exists(output_dir):
os.makedirs(output_dir)
counts.saveAsTextFile(output_dir)

print(f"Résultats sauvegardés dans le répertoire : {output_dir}")

if __name__ == "__main__":
# Définir les chemins d'entrée et de sortie
input_file = r"/home/othniel/pyspark_python/wordcount/input/loremipsum.txt"
output_dir = "/home/othniel/pyspark_python/wordcount/output_new"

# Exécution de la tâche WordCount
main(input_file, output_dir)

Wie kann ich diesen Fehler beheben und sicherstellen, dass PySpark erfolgreich in das Ausgabeverzeichnis schreibt? Muss ich in meinem Skript oder meiner Umgebung etwas Bestimmtes konfigurieren?
Vielen Dank für Ihre Hilfe!

1736059512

Guest

Ich arbeite an einem PySpark-Skript, um eine einfache Wortzählung durchzuführen. Mein Skript läuft einwandfrei, aber beim Versuch, die Ergebnisse mit saveAsTextFile zu speichern, tritt ein Fehler auf (jetzt bin ich auf Ubuntu). Hier ist der Fehler, den ich erhalte:
[code]py4j.protocol.Py4JJavaError: An error occurred while calling o48.saveAsTextFile.
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/pyspark_python/wordcount/output_new already exists
[/code]
Hier sind die Schritte, die ich bisher unternommen habe:
Überprüft, dass das Ausgabeverzeichnis keine Daten enthält (ls zeigt an, dass es leer ist).
Das Verzeichnis wurde mit rm -r und mkdir -p gelöscht und neu erstellt.
Es wurde sichergestellt, dass keine anderen Spark-Jobs ausgeführt werden (ps aux | grep spark).
Trotzdem , der Fehler bleibt bestehen, wenn ich es erneut ausführe das Skript.
Hier ist der Code, den ich verwende:
[code]from pyspark import SparkConf, SparkContext
import os

def main(input_file, output_dir):
# Configuration Spark
conf = SparkConf().setAppName("WordCountTask").setMaster("local[*]")
sc = SparkContext(conf=conf)

# Lecture du fichier d'entrée
text_file = sc.textFile(input_file)

# Comptage des mots
counts = (
text_file.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
)

# Sauvegarde des résultats
if not os.path.exists(output_dir):
os.makedirs(output_dir)
counts.saveAsTextFile(output_dir)

print(f"Résultats sauvegardés dans le répertoire : {output_dir}")

if __name__ == "__main__":
# Définir les chemins d'entrée et de sortie
input_file = r"/home/othniel/pyspark_python/wordcount/input/loremipsum.txt"
output_dir = "/home/othniel/pyspark_python/wordcount/output_new"

# Exécution de la tâche WordCount
main(input_file, output_dir)
[/code]
Wie kann ich diesen Fehler beheben und sicherstellen, dass PySpark erfolgreich in das Ausgabeverzeichnis schreibt? Muss ich in meinem Skript oder meiner Umgebung etwas Bestimmtes konfigurieren?
Vielen Dank für Ihre Hilfe!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann eine Klassenmethode im Controller ERPNext 14 überschrieben werden?

Last post by Guest « 17 Jan 2025, 05:27
Posted in Python

by Guest » 17 Jan 2025, 05:27 » in Python

Ich habe versucht, die Methode (calculate_item_values) im Controller (taxes_and_totals.py) durch meine eigene benutzerdefinierte Formel zu überschreiben, aber es scheint nicht zu funktionieren, aber...

0 Replies

3 Views

Last post by Guest
17 Jan 2025, 05:27
Verhindern Sie, dass Versandfelder durch die Abrechnung überschrieben werden, wenn „An eine andere Adresse versenden?“ a

Last post by Guest « 13 Jan 2025, 10:23
Posted in Php

by Guest » 13 Jan 2025, 10:23 » in Php

Ich passe das WooCommerce-Checkout-Verhalten an und habe ein Problem mit der Meldung „An eine andere Adresse versenden?“ festgestellt. Kontrollkästchen.
Wenn das Kontrollkästchen aktiviert ist,...

0 Replies

17 Views

Last post by Guest
13 Jan 2025, 10:23
Welche Methode muss überschrieben werden, um die Ecke von NotiIcons ContextMenuStrip abzurunden?

Last post by Guest « 20 Jan 2025, 19:07
Posted in C#

by Guest » 20 Jan 2025, 19:07 » in C#

In Windows 11 habe ich festgestellt, dass das Kontextmenü fast jedes Systray-Symbols eine runde Ecke hat.
Da es kein Systray-Menü für WPF-Anwendungen gibt, habe ich das Windows-Formular NotiIcon und...

0 Replies

14 Views

Last post by Guest
20 Jan 2025, 19:07
Der Aufruf der ersten Seite wird überschrieben, wenn die FCL die zweite Seite in der mittleren Spalte öffnet

Last post by Anonymous « 03 Mar 2025, 01:35
Posted in JavaScript

by Anonymous » 03 Mar 2025, 01:35 » in JavaScript

Objektseite führt bei geladenem Entitätsaufruf standardmäßig. Wir navigieren von dieser Seite zu einer anderen Seite in 2 Spaltenlayout, sobald die Navigation auftritt. Beide Seiten laden die Daten...

0 Replies

13 Views

Last post by Anonymous
03 Mar 2025, 01:35
Warum wird mein verschachtelter
css von den äußeren
css überschrieben?

Last post by Anonymous « 03 Apr 2025, 02:26
Posted in HTML

by Anonymous » 03 Apr 2025, 02:26 » in HTML

Ich habe eine Reihe von quadratischen Fliesen (Event-Tile) Line-DUP-DUP den unteren Bildschirmrand. Diese Fliesen sind in einem Container (.ContentContainerBottom) verschachtelt, der über den unteren...

0 Replies

6 Views

Last post by Anonymous
03 Apr 2025, 02:26

Return to “Python”