C/C++ kodiert Binärdatei in utf8 [geschlossen]

C/C++ kodiert Binärdatei in utf8 [geschlossen] ⇐ C++

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

C/C++ kodiert Binärdatei in utf8 [geschlossen]

Report
Quote

Post by Guest » 05 Jan 2025, 07:48

Ich habe einen Block mit Textdaten, von denen fast alle gültiges utf8 sind. Fast alle – aber nicht alle. Es enthält eine Mischung aus anderen gängigen Kodierungen wie ISO8859-xx, Windows-1252 und sogar EBCDIC. Die Kodierungen werden in diesem Textblock NICHT abgegrenzt oder angegeben. Die Codierungsinformationen stehen mir nicht zur Verfügung.
Ich möchte diesen Text an Systeme übergeben können, die nur gültiges utf8 akzeptieren. Das heißt, ich möchte die ungültigen Bytes in eine Art gültige Escapezeichen kodieren. Ich würde dies gerne reversibel machen, damit der Originaltext bei Bedarf wiederhergestellt werden kann. Was ist die einfachste und standardmäßigste Methode, dies zu tun?
Zum Beispiel könnte ich alles per URL kodieren. Aber das ist hässlich; Leerzeichen werden zu %20 und so weiter. Es ist übertrieben: Es nimmt vollkommen gültiges UTF8 und konvertiert es in schwer lesbares Gorp.
Ich könnte meine eigene Kodierung erfinden. Ich habe bereits versucht, die ungültigen Bytes in sogenannte „Ersatzcodepunkte“ im Bereich U+D800–U+DFFF umzuwandeln, habe aber sofort festgestellt, dass utf8-Subsysteme diese hassen (Ausnahmen, Fehler usw. auslösen)
Ich könnte meine eigene Kodierung erfinden und die ungültigen Bytes als ASCII-Hexadezimaltext ausgeben. Ich bin mir nicht sicher, wie ich Anfang und Ende abgrenzen soll. Das Ersetzen der ungültigen Bytes durch „Yo Alter, hier kommt die Binärdatei>>deadbeef

1736059694

Guest

Ich habe einen Block mit Textdaten, von denen fast alle gültiges utf8 sind. Fast alle – aber nicht alle. Es enthält eine Mischung aus anderen gängigen Kodierungen wie ISO8859-xx, Windows-1252 und sogar EBCDIC. Die Kodierungen werden in diesem Textblock NICHT abgegrenzt oder angegeben. Die Codierungsinformationen stehen mir nicht zur Verfügung.
Ich möchte diesen Text an Systeme übergeben können, die nur gültiges utf8 akzeptieren. Das heißt, ich möchte die ungültigen Bytes in eine Art gültige Escapezeichen kodieren. Ich würde dies gerne reversibel machen, damit der Originaltext bei Bedarf wiederhergestellt werden kann. Was ist die einfachste und standardmäßigste Methode, dies zu tun?
Zum Beispiel könnte ich alles per URL kodieren. Aber das ist hässlich; Leerzeichen werden zu %20 und so weiter. Es ist übertrieben: Es nimmt vollkommen gültiges UTF8 und konvertiert es in schwer lesbares Gorp.
Ich könnte meine eigene Kodierung erfinden. Ich habe bereits versucht, die ungültigen Bytes in sogenannte „Ersatzcodepunkte“ im Bereich U+D800–U+DFFF umzuwandeln, habe aber sofort festgestellt, dass utf8-Subsysteme diese hassen (Ausnahmen, Fehler usw. auslösen)
Ich könnte meine eigene Kodierung erfinden und die ungültigen Bytes als ASCII-Hexadezimaltext ausgeben. Ich bin mir nicht sicher, wie ich Anfang und Ende abgrenzen soll. Das Ersetzen der ungültigen Bytes durch „Yo Alter, hier kommt die Binärdatei>>deadbeef

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

ReportLab PDF kodiert nur einige Latin-2-Zeichen korrekt

Last post by Guest « 13 Jan 2025, 16:02
Posted in Python

by Guest » 13 Jan 2025, 16:02 » in Python

Ich versuche, ein Python-Programm für die Erstellung von PDF-Rechnungen zu schreiben. Die Textzeilen, die ich in ein neu generiertes PDF schreibe, sind auf Slowenisch mit Zeichen wie č, š, ž usw.,...

0 Replies

22 Views

Last post by Guest
13 Jan 2025, 16:02
Lesen Sie eine Binärdatei mit Python [geschlossen]

Last post by Anonymous « 23 Feb 2025, 16:25
Posted in Python

by Anonymous » 23 Feb 2025, 16:25 » in Python

Ich habe eine binäre Messdatei (es sollte Schwimmer/INT darin bestehen, eine linke Seite und eine rechte Seite. Aus dem Messsystem (PAK dient es zum Testen von Schalldruck für Fahrzeuge usw.) gibt es...

0 Replies

23 Views

Last post by Anonymous
23 Feb 2025, 16:25
PHP -Umgang mit Latein bis UTF8 [geschlossen]

Last post by Anonymous « 12 Mar 2025, 14:17
Posted in Php

by Anonymous » 12 Mar 2025, 14:17 » in Php

Es ist ein sehr altes PHP -Problem, aber ich arbeite mit einer alten SQL -Datenbank für ein privates Projekt. Die SQL -Datenbanke sind lateinisch codiert und haben zum Beispiel Andr \ xc3 \ xa9 , das...

0 Replies

21 Views

Last post by Anonymous
12 Mar 2025, 14:17
Wie berechnen Sie die Fraktion (gültige UTF8-Byte-Sequenz n)/(Gesamt-N-Byte-Sequenzen) effizient? [geschlossen]

Last post by Anonymous « 07 Apr 2025, 06:12
Posted in Python

by Anonymous » 07 Apr 2025, 06:12 » in Python

Dies wird ein langer Beitrag. Und es hat absolut nichts mit Hausaufgaben zu tun, ich bin nur neugierig, und das hat keine unmittelbaren praktischen Vorteile, aber das ist wie die Verfolgung der...

0 Replies

35 Views

Last post by Anonymous
07 Apr 2025, 06:12
VSCode Python Debugger verwendet nicht die richtige Python-Binärdatei mit launch.json „justMyCode=false“

Last post by Guest « 12 Jan 2025, 08:06
Posted in Python

by Guest » 12 Jan 2025, 08:06 » in Python

Ich habe ein kleines Projekt, in dem ich launch.json mit einer von Pipenv erstellten Umgebung verwenden möchte, aber VSCode scheint einen ungültigen Python-Binärspeicherort zu verwenden. Dies...

0 Replies

30 Views

Last post by Guest
12 Jan 2025, 08:06

Return to “C++”