Die Option „pyspark useArrow=True“ von Spark 4 führt zu Fehlern in der Pandas-Version

Die Option „pyspark useArrow=True“ von Spark 4 führt zu Fehlern in der Pandas-Version ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Die Option „pyspark useArrow=True“ von Spark 4 führt zu Fehlern in der Pandas-Version

Post by Guest » 24 Dec 2024, 11:57

Ich versuche, die pfeiloptimierte Python-UDF von Spark 4 wie unten zu testen,

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, udf
from pyspark.sql.types import IntegerType, StringType, StructField, StructType

spark = SparkSession.builder.master('local[*]').appName('test').getOrCreate()
spark.conf.set('spark.sql.execution.pythonUDF.arrow.enabled', True)
spark.conf.set('spark.sql.execution.arrow.pyspark.fallback.enabled', True)

rows = [{'name': 'joseph', 'age': 35}, {'name': 'jina', 'age': 30}, {'name': 'julian', 'age': 15}]

schema = StructType([
StructField('name', StringType(), True),
StructField('age', IntegerType(), True)])

df = spark.createDataFrame(rows, schema)

@udf(returnType=schema, useArrow=True)
def transform(name: str, age: int):
return name.upper(), age + 10

# Apply UDF to transform both columns
df_trans = df.withColumn("trans", transform(df["name"], df["age"]))
df_trans.show()

Aber die Option useArrow=True führt zu schwerwiegenden Fehlern wie den folgenden:

Code: Select all

Traceback (most recent call last):
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 28, in require_minimum_pandas_version
import pandas
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\pandas\__init__.py", line 33, in 
require_minimum_pandas_version()
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version
raise PySparkImportError(
pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File "c:\VSCode_Workspace\pyspark-test\com\aaa\spark\arrow_spark.py", line 19, in 
@udf(returnType=schema, useArrow=True)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\udf.py", line 142, in _create_py_udf
require_minimum_pandas_version()
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version
raise PySparkImportError(
pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.

Wenn ich die Pfeiloption auf „False“ setze, funktionieren diese Python-Codes ohne Fehler. Bitte teilen Sie mir mit, wie ich diese Fehler von Spark 4 beheben kann. Ich möchte die Pfeil-aktivierte UDF von Pyspark bestätigen.

1735037840

Guest

Ich versuche, die pfeiloptimierte Python-UDF von Spark 4 wie unten zu testen,
[code]from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, udf
from pyspark.sql.types import IntegerType, StringType, StructField, StructType

spark = SparkSession.builder.master('local[*]').appName('test').getOrCreate()
spark.conf.set('spark.sql.execution.pythonUDF.arrow.enabled', True)
spark.conf.set('spark.sql.execution.arrow.pyspark.fallback.enabled', True)

rows = [{'name': 'joseph', 'age': 35}, {'name': 'jina', 'age': 30}, {'name': 'julian', 'age': 15}]

schema = StructType([
StructField('name', StringType(), True),
StructField('age', IntegerType(), True)])

df = spark.createDataFrame(rows, schema)

@udf(returnType=schema, useArrow=True)
def transform(name: str, age: int):
return name.upper(), age + 10

# Apply UDF to transform both columns
df_trans = df.withColumn("trans", transform(df["name"], df["age"]))
df_trans.show()
[/code]
Aber die Option useArrow=True führt zu schwerwiegenden Fehlern wie den folgenden:
[code]Traceback (most recent call last):
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 28, in require_minimum_pandas_version
import pandas
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\pandas\__init__.py", line 33, in 
require_minimum_pandas_version()
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version
raise PySparkImportError(
pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File "c:\VSCode_Workspace\pyspark-test\com\aaa\spark\arrow_spark.py", line 19, in 
@udf(returnType=schema, useArrow=True)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\udf.py", line 142, in _create_py_udf
require_minimum_pandas_version()
File "C:\spark-4.0.0-preview2-bin-hadoop3\python\pyspark\sql\pandas\utils.py", line 43, in require_minimum_pandas_version
raise PySparkImportError(
pyspark.errors.exceptions.base.PySparkImportError: [PACKAGE_NOT_INSTALLED] Pandas >= 2.0.0 must be installed; however, it was not found.
[/code]
Wenn ich die Pfeiloption auf „False“ setze, funktionieren diese Python-Codes ohne Fehler. Bitte teilen Sie mir mit, wie ich diese Fehler von Spark 4 beheben kann. Ich möchte die Pfeil-aktivierte UDF von Pyspark bestätigen.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Ist es möglich, Daten von Spark Executors in Java Spark zu schreiben?

Last post by Anonymous « 27 Mar 2025, 15:45
Posted in Java

by Anonymous » 27 Mar 2025, 15:45 » in Java

Ich habe eine Java -Spark -Anwendung, die Daten von Kafka erhält, einige Arbeiten an den Daten ausführt und dann mit dem Befehl toundswrite () Parquetdateien in S3 speichert. Bis zu diesem Zeitpunkt...

0 Replies

18 Views

Last post by Anonymous
27 Mar 2025, 15:45
Ist es möglich, Daten von Spark Executors in Java Spark zu schreiben?

Last post by Anonymous « 02 Apr 2025, 12:13
Posted in Java

by Anonymous » 02 Apr 2025, 12:13 » in Java

Ich habe eine Java -Spark -Anwendung, die Daten von Kafka erhält, einige Arbeiten an den Daten ausführt und dann mit dem Befehl toundswrite () Parquetdateien in S3 speichert. Bis zu diesem Zeitpunkt...

0 Replies

15 Views

Last post by Anonymous
02 Apr 2025, 12:13
So beheben Sie Fehler BuildFeatures {viewBinding = true}, die in ViewBinding {enabled true} nicht auftreten

Last post by Anonymous « 13 Apr 2025, 23:20
Posted in Android

by Anonymous » 13 Apr 2025, 23:20 » in Android

Ich habe gerade angefangen, Android -Entwicklung zu verwenden und versucht, Raumbibliothek zu verwenden. Seit gestern bin ich vor dieser Warnmeldung ausgesetzt, die auftritt, wenn ich Datenbank in...

0 Replies

26 Views

Last post by Anonymous
13 Apr 2025, 23:20
PySpark-Code zum Konvertieren von Dictionary in Spark Dataframe

Last post by Guest « 27 Dec 2024, 09:37
Posted in Python

by Guest » 27 Dec 2024, 09:37 » in Python

Ich versuche, ein Wörterbuch in einen SPARK-Datenrahmen umzuwandeln. Aber alle meine Werte werden an eine einzelne Zeile angehängt. Für mein Endergebnis möchte ich einen SPARK-Datenrahmen haben, der...

0 Replies

33 Views

Last post by Guest
27 Dec 2024, 09:37
Anhänge an Delta -Tabellen im Stoff mit Spark VS ohne Spark

Last post by Anonymous « 10 Apr 2025, 12:53
Posted in Python

by Anonymous » 10 Apr 2025, 12:53 » in Python

Ich bin neu im Stoff und habe ein paar Udemy -Kurse durchgeführt. Ich bin mir jedoch nicht sicher, wie ich dieses Problem angehen soll. Die Transformationen sind kleine, umgebende Spalten...

0 Replies

15 Views

Last post by Anonymous
10 Apr 2025, 12:53

Return to “Python”