Traceback (most recent call last):
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 28, in require_minimum_pandas_version
import pandas
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\pandas\__init__.py", line 33, in
require_minimum_pandas_version()
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version
raise PySparkImportError(
pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.
The above exception was the direct cause of the following exception:
Traceback (most recent call last):
File "c:\VSCode_Workspace\pyspark-test\com\aaa\spark\arrow_spark.py", line 19, in
@udf(returnType=schema, useArrow=True)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\udf.py", line 142, in _create_py_udf
require_minimum_pandas_version()
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version
raise PySparkImportError(
pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.
Wenn ich die Pfeiloption auf „False“ setze, funktionieren diese Python-Codes ohne Fehler. Bitte teilen Sie mir mit, wie ich diese Fehler von Spark 4 beheben kann. Ich möchte die Pfeil-aktivierte UDF von Pyspark bestätigen.
Ich versuche, die pfeiloptimierte Python-UDF von Spark 4 wie unten zu testen, [code]from pyspark.sql import SparkSession from pyspark.sql.functions import col, lit, udf from pyspark.sql.types import IntegerType, StringType, StructField, StructType
# Apply UDF to transform both columns df_trans = df.withColumn("trans", transform(df["name"], df["age"])) df_trans.show() [/code] Aber die Option useArrow=True führt zu schwerwiegenden Fehlern wie den folgenden: [code]Traceback (most recent call last): File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 28, in require_minimum_pandas_version import pandas File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\pandas\__init__.py", line 33, in require_minimum_pandas_version() File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version raise PySparkImportError( pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.
The above exception was the direct cause of the following exception:
Traceback (most recent call last): File "c:\VSCode_Workspace\pyspark-test\com\aaa\spark\arrow_spark.py", line 19, in @udf(returnType=schema, useArrow=True) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\udf.py", line 142, in _create_py_udf require_minimum_pandas_version() File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version raise PySparkImportError( pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found. [/code] Wenn ich die Pfeiloption auf „False“ setze, funktionieren diese Python-Codes ohne Fehler. Bitte teilen Sie mir mit, wie ich diese Fehler von Spark 4 beheben kann. Ich möchte die Pfeil-aktivierte UDF von Pyspark bestätigen.
Ich habe eine Java -Spark -Anwendung, die Daten von Kafka erhält, einige Arbeiten an den Daten ausführt und dann mit dem Befehl toundswrite () Parquetdateien in S3 speichert. Bis zu diesem Zeitpunkt...
Ich habe eine Java -Spark -Anwendung, die Daten von Kafka erhält, einige Arbeiten an den Daten ausführt und dann mit dem Befehl toundswrite () Parquetdateien in S3 speichert. Bis zu diesem Zeitpunkt...
Ich habe gerade angefangen, Android -Entwicklung zu verwenden und versucht, Raumbibliothek zu verwenden. Seit gestern bin ich vor dieser Warnmeldung ausgesetzt, die auftritt, wenn ich Datenbank in...
Ich versuche, ein Wörterbuch in einen SPARK-Datenrahmen umzuwandeln. Aber alle meine Werte werden an eine einzelne Zeile angehängt. Für mein Endergebnis möchte ich einen SPARK-Datenrahmen haben, der...
Ich bin neu im Stoff und habe ein paar Udemy -Kurse durchgeführt. Ich bin mir jedoch nicht sicher, wie ich dieses Problem angehen soll. Die Transformationen sind kleine, umgebende Spalten...