Ich versuche, einen Pipelinedrdd in PySpark in einen Datenrahmen umzuwandeln. Dies ist der Code -Snippet: < /p>
newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row), )))
df = newRDD.toDF()< /code> < /p>
Wenn ich den Code jedoch ausführe, erhalte ich diesen Fehler: < /p>
'list' object has no attribute 'encode'< /code> < /p>
Ich habe mehrere andere Kombinationen ausprobiert, z.newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row), )))
df = newRDD.toPandas()< /code> < /p>
Aber dann empfange ich diesen Fehler: < /p>
AttributeError: 'PipelinedRDD' object has no attribute 'toPandas'< /code> < /p>
Jede Hilfe wäre sehr geschätzt. Vielen Dank für Ihre Zeit.
Konvertieren Sie Pipelinedrdd in DataFrame ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post
-
-
Der beste Weg, um Small DataFrame mit großem DataFrame in Python anzuschließen
by Anonymous » » in Python - 0 Replies
- 3 Views
-
Last post by Anonymous
-