Ich habe ein geschäftliches PDF-Dokument erhalten, das ich programmgesteuert verarbeiten muss, das ich aber nicht entschlüsseln kann.
Ein Teil des Dokuments liest sich in Acrobat so:
Aber wenn ich die Bytes aus der darunter liegenden Textebene extrahiere, erhalte ich Folgendes:
Code: Select all
f4 80 80 94 f4 80 80 9b f4 80 80 93 f4 80 80 a6
f4 80 80 b7 f4 80 80 b1 f4 80 80 b6 20 f4 80 80
94 f4 80 80 9b f4 80 80 93 f4 80 80 93 f4 80 80
b3 f4 80 80 a6 f4 80 80 b6
Anscheinend kodiert die Software, die diese Datei erstellt hat, „0“ als F480 8093, „1“ als F480 8094 und so weiter. Aber welche Codierung bewirkt das? Ich kann diese Bytesequenz mit keinem der Codecs in der Python-Standardbibliothek dekodieren.