Aufgrund von Datenqualitätsproblemen enthält der Datensatz jedoch:
- doppelte Zeitstempel
- fehlende Zeitstempel
- unregelmäßig Lücken (z. B. Sprünge von 5 bis 10 Minuten)
- Zeilen außerhalb der Reihenfolge
Hier ist der Code, den ich gerade verwende:
Code: Select all
import pandas as pd
df = pd.read_csv("sensor.csv", parse_dates=["timestamp"])
df = df.sort_values("timestamp")
# Check duplicates
duplicates = df[df["timestamp"].duplicated()]
# Check gaps
df["diff"] = df["timestamp"].diff()
print(df["diff"].value_counts())
Meine Fragen:
- Wie kann ich fehlende Zeitstempel am besten erkennen und sie automatisch ausfüllen oder interpolieren?
- Wie kann ich damit umgehen? außerordentliche oder unregelmäßige Intervalle effizient für große Zeitreihendatensätze?
- Gibt es integrierte Python-Bibliotheken (z. B. tsfresh, river, statsmodels oder pandas), die bei der automatisierten Validierung der Datenqualität von Zeitreihen helfen?
Mobile version