So erfassen Sie mit „observ“ in PySpark mehrere Metriken, ohne mehrere Aktionen auszulösen

So erfassen Sie mit „observ“ in PySpark mehrere Metriken, ohne mehrere Aktionen auszulösen ⇐ Python

1 post • Page 1 of 1

Anonymous

So erfassen Sie mit „observ“ in PySpark mehrere Metriken, ohne mehrere Aktionen auszulösen

Report
Quote

Post by Anonymous » 22 Oct 2025, 17:17

Ich habe einen PySpark-Job, der Daten aus Tabelle a liest, einige Transformationen und Filter durchführt und dann das Ergebnis in Tabelle b schreibt.
Hier ist eine vereinfachte Version des Codes:

Code: Select all

import pyspark.sql.functions as F

spark = ...  # initialization

df = spark.table("a").where(F.col("country") == "abc")
df_unique = df.distinct()
users_without_kids = df_unique.where(F.col("kid_count") == 0)

observation = Observation()
observed_df = users_without_kids.observe(observation, F.count(F.lit(1)).alias("row_count"))

observed_df.writeTo("b")
print(observation.get["row_count"])

Das funktioniert gut – ich erhalte die Anzahl der Datensätze, die in Tabelle b geschrieben wurden.
Ich würde jedoch auch gerne wissen:

Wie viele Datensätze es direkt nach dem ersten Filter gab (
Code: Select all
```
df
```
)
Wie viele Datensätze gibt es nach „distinct()“ (
Code: Select all
```
df_unique
```
)

Aber ich möchte vermeiden, zusätzliche Aktionen auszulösen (z. B. .count() nicht mehrmals aufzurufen) – idealerweise würde ich gerne alle Metriken in einer einzigen Aktion sammeln (writeTo).
Ich habe versucht, mehrere Beobachtungsaufrufe oder mehrere Metriken zu einer einzelnen Beobachtung hinzuzufügen, aber es scheint nicht zu funktionieren wenn am Ende nur eine Aktion steht.
Frage:
Gibt es in PySpark eine Möglichkeit, mehrere DataFrames (oder mehrere Metriken) in einer Aktion zu beobachten, damit ich diese Zählungen erfassen kann (

Code: Select all

df

, df_unique und users_without_kids), ohne zusätzliche Aufgaben auszuführen?

1761146225

Anonymous

Ich habe einen PySpark-Job, der Daten aus Tabelle a liest, einige Transformationen und Filter durchführt und dann das Ergebnis in Tabelle b schreibt.
Hier ist eine vereinfachte Version des Codes:
[code]import pyspark.sql.functions as F

spark = ...  # initialization

df = spark.table("a").where(F.col("country") == "abc")
df_unique = df.distinct()
users_without_kids = df_unique.where(F.col("kid_count") == 0)

observation = Observation()
observed_df = users_without_kids.observe(observation, F.count(F.lit(1)).alias("row_count"))

observed_df.writeTo("b")
print(observation.get["row_count"])
[/code]
Das funktioniert gut – ich erhalte die Anzahl der Datensätze, die in Tabelle b geschrieben wurden.
Ich würde jedoch auch gerne wissen:
[list]
[*]Wie viele Datensätze es direkt nach dem ersten Filter gab ([code]df[/code])
[*]Wie viele Datensätze gibt es nach „distinct()“ ([code]df_unique[/code])
[/list]
Aber [url=viewtopic.php?t=30561]ich möchte[/url] vermeiden, zusätzliche Aktionen auszulösen (z. B. .count() nicht mehrmals aufzurufen) – idealerweise würde ich gerne alle Metriken in einer einzigen Aktion sammeln (writeTo).
Ich habe versucht, mehrere Beobachtungsaufrufe oder mehrere Metriken zu einer einzelnen Beobachtung hinzuzufügen, aber es scheint nicht zu funktionieren wenn am Ende nur eine Aktion steht.
[b]Frage:[/b]
Gibt es in PySpark eine Möglichkeit, mehrere DataFrames (oder mehrere Metriken) in einer Aktion zu beobachten, damit ich diese Zählungen erfassen kann ([code]df[/code], df_unique und users_without_kids), ohne zusätzliche Aufgaben auszuführen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Falsche Metriken für Histogramm mit Spring WebFlux mit Mikrometer .TAP (micrometer.Metrics (Messgerechung))

Last post by Anonymous « 11 Mar 2025, 23:59
Posted in Java

by Anonymous » 11 Mar 2025, 23:59 » in Java

Was ich erreichen möchte:
Verwenden von Spring WebFlux und Micrometer, ich möchte ein Histogramm der Zeit für eine Methodenausführung erhalten. Nun. @RestController
class QuestionController {...

0 Replies

14 Views

Last post by Anonymous
11 Mar 2025, 23:59
Gibt es eine praktikable Möglichkeit, CSS -Keyframe -Animation mit JS auszulösen?

Last post by Anonymous « 11 Apr 2025, 09:28
Posted in Jquery

by Anonymous » 11 Apr 2025, 09:28 » in Jquery

Natürlich können wir eine CSS -Animation mit KeyFrames erstellen und sie von dort aus steuern.@keyframes fade-in {
0% {opacity: 0;}
100% {opacity: 1;}
}

Jetzt möchte ich diese Animation auslösen....

0 Replies

27 Views

Last post by Anonymous
11 Apr 2025, 09:28
Gibt es eine praktikable Möglichkeit, CSS -Keyframe -Animation mit JS auszulösen?

Last post by Anonymous « 11 Apr 2025, 09:28
Posted in CSS

by Anonymous » 11 Apr 2025, 09:28 » in CSS

Natürlich können wir eine CSS -Animation mit KeyFrames erstellen und sie von dort aus steuern.@keyframes fade-in {
0% {opacity: 0;}
100% {opacity: 1;}
}

Jetzt möchte ich diese Animation auslösen....

0 Replies

30 Views

Last post by Anonymous
11 Apr 2025, 09:28
Hat die Tatsache, dass ich gerade trainiert habe, aufgeteilt mit Keras image_from_dataset auf meine Metriken beeinflusst

Last post by Anonymous « 10 Apr 2025, 12:29
Posted in Python

by Anonymous » 10 Apr 2025, 12:29 » in Python

Ich habe versucht herauszufinden, warum meine Metriken nach dem Training niedrig waren. Ich hatte einen F1 -Score von 75%, was ich überhaupt nicht erwartet hatte. Ich habe den Code überprüft und...

0 Replies

8 Views

Last post by Anonymous
10 Apr 2025, 12:29
Ist es sinnvoll, den Konstruktor dazu zu bringen, eine Ausnahme auszulösen?

Last post by Anonymous « 22 Dec 2024, 05:10
Posted in Java

by Anonymous » 22 Dec 2024, 05:10 » in Java

Ist es eine gute Vorgehensweise, den Konstruktor dazu zu bringen, eine Ausnahme auszulösen?
Zum Beispiel habe ich eine Klasse „Person“ und ich habe „Alter“ als einziges Attribut. Jetzt
stelle ich die...

0 Replies

34 Views

Last post by Anonymous
22 Dec 2024, 05:10

Return to “Python”