Außerdem ist die Datei eine einzeilige Zeichenfolge.
Datei endet mit zahlreichen ....\x00\ x00\x00
Ich habe viele Varianten mit dem Lesen der JSON-Datei mit Fehlerkontrolle und manueller Dekodierung ausprobiert, kann die Daten aber immer noch nicht in den Pandas-Datenrahmen analysieren.
Letzte Idee, wo ich aufgehört habe: Lesen Sie die Zeile von:
Code: Select all
with open('data.json', 'r', encoding='utf-8') as f:
dt = f.read()
Gibt es noch andere Varianten wie teilweise gelesene Dateien oder automatische Korrektur von Fehlern in der JSON-Struktur?
Ich habe diesen Ansatz auch ausprobiert :
Code: Select all
import json
import re
class LazyDecoder(json.JSONDecoder):
def decode(self, s, **kwargs):
regex_replacements = [
(re.compile(r'([^\\])\\([^\\])'), r'\1\\\\\2'),
(re.compile(r',(\s*])'), r'\1'),
]
for regex, replacement in regex_replacements:
s = regex.sub(replacement, s)
return super().decode(s, **kwargs)
with open(r'data.json') as result:
data = json.load(result, cls=LazyDecoder, strict=False)