Wie kann die zeitliche Abweichung der Datenqualität in Pipelines für maschinelles Lernen überwacht werden? [geschlossen]Python

Python-Programme
Anonymous
 Wie kann die zeitliche Abweichung der Datenqualität in Pipelines für maschinelles Lernen überwacht werden? [geschlossen]

Post by Anonymous »

Ich baue eine Pipeline für maschinelles Lernen auf, die täglich eingehende Daten verarbeitet.

Im Laufe der Zeit habe ich festgestellt, dass die Modellleistung sinkt, obwohl sich der Code und die Trainingslogik nicht geändert haben.

Ich vermute, dass Datenqualitätsabweichungen – fehlende Werte, Ausreißer oder Verteilungsverschiebungen in Schlüsselfunktionen – die Ursache sind.
Ich möchte verfolgen und benachrichtigen, wenn Daten vorliegen Qualitätsprobleme treten auf, bevor Umschulungen oder Vorhersagen erfolgen.
Das mache ich derzeit:

Code: Select all

import pandas as pd
from sklearn.preprocessing import StandardScaler

df = pd.read_csv("daily_data.csv")

# Basic checks
print(df.isnull().sum())
print(df.describe())

# Simple scaling
scaler = StandardScaler()
scaled = scaler.fit_transform(df.select_dtypes(float))
Dadurch erhalte ich zusammenfassende Statistiken, aber ich möchte etwas automatisierteres und fortlaufenderes implementieren, wie zum Beispiel:
  • Erkennung von Datendrift im Vergleich zu einem Basisdatensatz.
  • Messung von Änderungen der Rate fehlender Werte oder des Ausreißerverhältnisses.
  • Automatische Benachrichtigung, wenn Datenqualitätsschwellenwerte überschritten werden.
Meine Fragen:
  • Wie lässt sich die Datenqualitätsabweichung in Produktions-ML-Pipelines am besten quantifizieren und überwachen?
  • Gibt es Open-Source-Tools wie Offensichtlich KI, Great Expectations oder Deepchecks, die diesen Prozess automatisieren können?
  • Wie integrieren Datenwissenschaftler diese Prüfungen normalerweise in MLOps-Workflows (z. B. Airflow, MLflow oder Kubeflow)?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post