So erkennen und entfernen Sie inkonsistente Zeitstempel in einem Zeitreihendatensatz [geschlossen]Python

Python-Programme
Anonymous
 So erkennen und entfernen Sie inkonsistente Zeitstempel in einem Zeitreihendatensatz [geschlossen]

Post by Anonymous »

Ich arbeite mit einem Zeitreihendatensatz, bei dem jeder Datensatz in 1-Minuten-Intervallen protokolliert werden soll.

Aufgrund von Datenqualitätsproblemen enthält der Datensatz jedoch:
  • doppelte Zeitstempel
  • fehlende Zeitstempel
  • unregelmäßig Lücken (z. B. Sprünge von 5 bis 10 Minuten)
  • Zeilen außerhalb der Reihenfolge
Diese Probleme verursachen Probleme, wenn ich ein Resampling durchführe oder Prognosemodelle erstelle.
Hier ist der Code, den ich gerade verwende:

Code: Select all

import pandas as pd

df = pd.read_csv("sensor.csv", parse_dates=["timestamp"])
df = df.sort_values("timestamp")

# Check duplicates
duplicates = df[df["timestamp"].duplicated()]

# Check gaps
df["diff"] = df["timestamp"].diff()
print(df["diff"].value_counts())
Dies hilft mir, einige Probleme zu identifizieren, aber ich möchte eine systematischere und skalierbarere Lösung.
Meine Fragen:
  • Wie kann ich fehlende Zeitstempel am besten erkennen und sie automatisch ausfüllen oder interpolieren?
  • Wie kann ich damit umgehen? außerordentliche oder unregelmäßige Intervalle effizient für große Zeitreihendatensätze?
  • Gibt es integrierte Python-Bibliotheken (z. B. tsfresh, river, statsmodels oder pandas), die bei der automatisierten Validierung der Datenqualität von Zeitreihen helfen?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post