from transformers import GPT2Tokenizer
text = "zügiger Transport des ABCD stabilen Kindes in die Notaufnahme UKA"
text = text.encode("utf-8").decode("utf-8") # Re-encode to fix encoding issues
# Load GPT-2 tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
# Tokenize the text
tokens = tokenizer.tokenize(text)
print(tokens) # Should properly tokenize "zügiger" instead of splitting "ü"
< /code>
Jetzt, wenn ich diesen Code -Snippet ausführe, erhalte ich wie folgt Ausgabe: < /p>
['z', 'ü', 'g', 'iger', 'ĠTransport', 'Ġdes', 'ĠABC', 'D', 'Ġstabil', 'en', 'ĠKind', 'es', 'Ġin', 'Ġdie', 'ĠNot', 'au', 'fn', 'ah', 'me', 'ĠUK', 'A']
< /code>
Nach einiger Analyse habe ich festgestellt, dass alle deutschsprachigen Zeichen als lateinisch-1 falsch dekoriert werden. Siehe die folgende Tabelle.| Character | UTF-8 Bytes | Misdecoded as Latin-1 | Resulting String |
|-----------|-------------|-----------------------|------------------|
| ä | C3 A4 | à + ¤ | ä |
| ö | C3 B6 | à + ¶ | ö |
| ü | C3 BC | à + ¼ | ü |
| ß | C3 9F | à + Ÿ | ß |
Nun, wie ich deutschsprachspezifische Charaktere wie (ä, ö, ü, ß) nach dem Tokenisierungsprozess in den Innen -Token behalten kann, um eine unbeabsichtigte Fehlveradungskosten zu vermeiden, d. H. "Zügiger" wird so etwas wie ['Z', 'ü', 'g', 'iger'.>
Ich arbeite mit deutschen Texten, in denen ich Texte mit GPT2Tokenizer ankündigen muss.[code] from transformers import GPT2Tokenizer
text = "zügiger Transport des ABCD stabilen Kindes in die Notaufnahme UKA" text = text.encode("utf-8").decode("utf-8") # Re-encode to fix encoding issues
# Tokenize the text tokens = tokenizer.tokenize(text)
print(tokens) # Should properly tokenize "zügiger" instead of splitting "ü" < /code> Jetzt, wenn ich diesen Code -Snippet ausführe, erhalte ich wie folgt Ausgabe: < /p> ['z', 'ü', 'g', 'iger', 'ĠTransport', 'Ġdes', 'ĠABC', 'D', 'Ġstabil', 'en', 'ĠKind', 'es', 'Ġin', 'Ġdie', 'ĠNot', 'au', 'fn', 'ah', 'me', 'ĠUK', 'A'] < /code> Nach einiger Analyse habe ich festgestellt, dass alle deutschsprachigen Zeichen als lateinisch-1 falsch dekoriert werden. Siehe die folgende Tabelle.| Character | UTF-8 Bytes | Misdecoded as Latin-1 | Resulting String | |-----------|-------------|-----------------------|------------------| | ä | C3 A4 | à + ¤ | ä | | ö | C3 B6 | à + ¶ | ö | | ü | C3 BC | à + ¼ | ü | | ß | C3 9F | à + Ÿ | ß | [/code] Nun, wie ich deutschsprachspezifische Charaktere wie (ä, ö, ü, ß) nach dem Tokenisierungsprozess in den Innen -Token behalten kann, um eine unbeabsichtigte Fehlveradungskosten zu vermeiden, d. H. "Zügiger" wird so etwas wie ['Z', 'ü', 'g', 'iger'.>
Ich habe eine abgrenzende Datei, die ein Schmerz zum Lesen sein kann. Daher habe ich eine Swing -Anwendung, die den Inhalt der Dateien aufnimmt und sie in eine jTextArea steckt. Japanische und...
In Visual Studio C ++ habe ich eine Reihe von ChannelId -Konstanten mit Dezimalwerten von 0 bis 15 definiert. Ich habe sie vom Typ uint8_t gemacht, aus Gründen, die mit der Art und Weise zu tun...
Ich bin ein Anfänger in der Programmierung und begann kürzlich Java zu lernen. Ich habe ein Programm geschrieben, das String als Eingabe nimmt und den Fall jedes Zeichens druckt. Kann mir jemand...
idx14100: JWT ist nicht gut gebildet, es gibt keine Punkte (.). (JWS): 'codedHeader.endCodedPayload.Codedsignature'. (JWE): 'coded formtectedheader.encodedencryptedKey.CodedInitializationVector...