Wie kann man inkonsistente Datumsformate über mehrere Spalten hinweg in Pandas DataFrame effizient erkennen und verarbei ⇐ Python
-
Anonymous
Wie kann man inkonsistente Datumsformate über mehrere Spalten hinweg in Pandas DataFrame effizient erkennen und verarbei
Ich verarbeite Finanztransaktionsdaten mit 500.000 Zeilen, wobei Datumsspalten gemischte Formate aus verschiedenen Datenquellen enthalten. Die gleiche Spalte enthält Datumsangaben wie „15.01.2023“, „20.02.2023“, „25.03.23 14:30:00“ und ungültige Einträge. Wenn ich pd.to_datetime(errors='coerce') verwende, werden viele gültige Datumsangaben zu NaT, da Pandas keine gemischten Formate innerhalb einer einzelnen Spalte ableiten können. Ich habe mehrere Formatierungsversuche mit einer Schleife versucht, aber sie wendet nur das erste erfolgreiche Format auf die gesamte Spalte an und verarbeitet keine zeilenweisen gemischten Formate. Die Verwendung von dateutil.parser.parse() mit apply() funktioniert, ist jedoch zu langsam für die Produktion (dauert mehr als 55 Minuten) und analysiert manchmal ungültige Daten wie „2023/13/45“ falsch. Ich benötige eine effiziente Lösung, die gemischte Formate pro Zeile verarbeitet, Analysefehler für Datenqualitätsberichte verfolgt und überprüft, ob die analysierten Daten geschäftlich sinnvoll sind. Aktuelle Ansätze opfern entweder Genauigkeit zugunsten der Geschwindigkeit oder sind für den Produktionseinsatz zu langsam.
-
- Similar Topics
- Replies
- Views
- Last post
Mobile version