Hier ist eine vereinfachte Version des Codes:
Code: Select all
import pyspark.sql.functions as F
spark = ...  # initialization
df = spark.table("a").where(F.col("country") == "abc")
df_unique = df.distinct()
users_without_kids = df_unique.where(F.col("kid_count") == 0)
observation = Observation()
observed_df = users_without_kids.observe(observation, F.count(F.lit(1)).alias("row_count"))
observed_df.writeTo("b")
print(observation.get["row_count"])
Ich würde jedoch auch gerne wissen:
- Wie viele Datensätze es direkt nach dem ersten Filter gab ()Code: Select all df
- Wie viele Datensätze gibt es nach „distinct()“ ()Code: Select all df_unique
Ich habe versucht, mehrere Beobachtungsaufrufe oder mehrere Metriken zu einer einzelnen Beobachtung hinzuzufügen, aber es scheint nicht zu funktionieren wenn am Ende nur eine Aktion steht.
Frage:
Gibt es in PySpark eine Möglichkeit, mehrere DataFrames (oder mehrere Metriken) in einer Aktion zu beobachten, damit ich diese Zählungen erfassen kann (
Code: Select all
df Mobile version
 Mobile version