Wie kann man inkonsistente Datumsformate über mehrere Spalten hinweg in Pandas DataFrame effizient erkennen und verarbeiPython

Python-Programme
Anonymous
 Wie kann man inkonsistente Datumsformate über mehrere Spalten hinweg in Pandas DataFrame effizient erkennen und verarbei

Post by Anonymous »

Ich verarbeite Finanztransaktionsdaten mit 500.000 Zeilen, wobei Datumsspalten gemischte Formate aus verschiedenen Datenquellen enthalten. Die gleiche Spalte enthält Datumsangaben wie „15.01.2023“, „20.02.2023“, „25.03.23 14:30:00“ und ungültige Einträge. Wenn ich pd.to_datetime(errors='coerce') verwende, werden viele gültige Datumsangaben zu NaT, da Pandas keine gemischten Formate innerhalb einer einzelnen Spalte ableiten können. Ich habe mehrere Formatierungsversuche mit einer Schleife versucht, aber sie wendet nur das erste erfolgreiche Format auf die gesamte Spalte an und verarbeitet keine zeilenweisen gemischten Formate. Die Verwendung von dateutil.parser.parse() mit apply() funktioniert, ist jedoch zu langsam für die Produktion (dauert mehr als 55 Minuten) und analysiert manchmal ungültige Daten wie „2023/13/45“ falsch. Ich benötige eine effiziente Lösung, die gemischte Formate pro Zeile verarbeitet, Analysefehler für Datenqualitätsberichte verfolgt und überprüft, ob die analysierten Daten geschäftlich sinnvoll sind. Aktuelle Ansätze opfern entweder Genauigkeit zugunsten der Geschwindigkeit oder sind für den Produktionseinsatz zu langsam.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post