Hier ist eine vereinfachte Version des Codes:
Code: Select all
import pyspark.sql.functions as F
spark = ... # initialization
df = spark.table("a").where(F.col("country") == "abc")
df_unique = df.distinct()
users_without_kids = df_unique.where(F.col("kid_count") == 0)
observation = Observation()
observed_df = users_without_kids.observe(observation, F.count(F.lit(1)).alias("row_count"))
observed_df.writeTo("b")
print(observation.get["row_count"])
Ich würde jedoch auch gerne wissen:
- Wie viele Datensätze es direkt nach dem ersten Filter gab ()
Code: Select all
df - Wie viele Datensätze gibt es nach „distinct()“ ()
Code: Select all
df_unique
Ich habe versucht, mehrere Beobachtungsaufrufe oder mehrere Metriken zu einer einzelnen Beobachtung hinzuzufügen, aber es scheint nicht zu funktionieren wenn am Ende nur eine Aktion steht.
Frage:
Gibt es in PySpark eine Möglichkeit, mehrere DataFrames (oder mehrere Metriken) in einer Aktion zu beobachten, damit ich diese Zählungen erfassen kann (
Code: Select all
df
Mobile version