Im Laufe der Zeit habe ich festgestellt, dass die Modellleistung sinkt, obwohl sich der Code und die Trainingslogik nicht geändert haben.
Ich vermute, dass Datenqualitätsabweichungen – fehlende Werte, Ausreißer oder Verteilungsverschiebungen in Schlüsselfunktionen – die Ursache sind.
Ich möchte verfolgen und benachrichtigen, wenn Daten vorliegen Qualitätsprobleme treten auf, bevor Umschulungen oder Vorhersagen erfolgen.
Das mache ich derzeit:
Code: Select all
import pandas as pd
from sklearn.preprocessing import StandardScaler
df = pd.read_csv("daily_data.csv")
# Basic checks
print(df.isnull().sum())
print(df.describe())
# Simple scaling
scaler = StandardScaler()
scaled = scaler.fit_transform(df.select_dtypes(float))
- Erkennung von Datendrift im Vergleich zu einem Basisdatensatz.
- Messung von Änderungen der Rate fehlender Werte oder des Ausreißerverhältnisses.
- Automatische Benachrichtigung, wenn Datenqualitätsschwellenwerte überschritten werden.
- Wie lässt sich die Datenqualitätsabweichung in Produktions-ML-Pipelines am besten quantifizieren und überwachen?
- Gibt es Open-Source-Tools wie Offensichtlich KI, Great Expectations oder Deepchecks, die diesen Prozess automatisieren können?
- Wie integrieren Datenwissenschaftler diese Prüfungen normalerweise in MLOps-Workflows (z. B. Airflow, MLflow oder Kubeflow)?
Mobile version