from transformers import GPT2Tokenizer
text = "zügiger Transport des ABCD stabilen Kindes in die Notaufnahme UKA"
text = text.encode("utf-8").decode("utf-8") # Re-encode to fix encoding issues
# Load GPT-2 tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
# Tokenize the text
tokens = tokenizer.tokenize(text)
print(tokens) # Should properly tokenize "zügiger" instead of splitting "ü"
< /code>
Jetzt, wenn ich diesen Code -Snippet ausführe, erhalte ich wie folgt Ausgabe: < /p>
['z', 'ü', 'g', 'iger', 'ĠTransport', 'Ġdes', 'ĠABC', 'D', 'Ġstabil', 'en', 'ĠKind', 'es', 'Ġin', 'Ġdie', 'ĠNot', 'au', 'fn', 'ah', 'me', 'ĠUK', 'A']
< /code>
Nach einiger Analyse habe ich festgestellt, dass alle deutschsprachigen Zeichen als lateinisch-1 falsch dekoriert werden. Siehe die folgende Tabelle.| Character | UTF-8 Bytes | Misdecoded as Latin-1 | Resulting String |
|-----------|-------------|-----------------------|------------------|
| ä | C3 A4 | à + ¤ | ä |
| ö | C3 B6 | à + ¶ | ö |
| ü | C3 BC | à + ¼ | ü |
| ß | C3 9F | à + Ÿ | ß |
Nun, wie ich deutschsprachspezifische Charaktere wie (ä, ö, ü, ß) nach dem Tokenisierungsprozess in den Innen -Token behalten kann, um eine unbeabsichtigte Fehlveradungskosten zu vermeiden, d. H. "Zügiger" wird so etwas wie ['Z', 'ü', 'g', 'iger'.>
Ich arbeite mit deutschen Texten, in denen ich Texte mit GPT2Tokenizer ankündigen muss.[code] from transformers import GPT2Tokenizer
text = "zügiger Transport des ABCD stabilen Kindes in die Notaufnahme UKA" text = text.encode("utf-8").decode("utf-8") # Re-encode to fix encoding issues
# Tokenize the text tokens = tokenizer.tokenize(text)
print(tokens) # Should properly tokenize "zügiger" instead of splitting "ü" < /code> Jetzt, wenn ich diesen Code -Snippet ausführe, erhalte ich wie folgt Ausgabe: < /p> ['z', 'ü', 'g', 'iger', 'ĠTransport', 'Ġdes', 'ĠABC', 'D', 'Ġstabil', 'en', 'ĠKind', 'es', 'Ġin', 'Ġdie', 'ĠNot', 'au', 'fn', 'ah', 'me', 'ĠUK', 'A'] < /code> Nach einiger Analyse habe ich festgestellt, dass alle deutschsprachigen Zeichen als lateinisch-1 falsch dekoriert werden. Siehe die folgende Tabelle.| Character | UTF-8 Bytes | Misdecoded as Latin-1 | Resulting String | |-----------|-------------|-----------------------|------------------| | ä | C3 A4 | à + ¤ | ä | | ö | C3 B6 | à + ¶ | ö | | ü | C3 BC | à + ¼ | ü | | ß | C3 9F | à + Ÿ | ß | [/code] Nun, wie ich deutschsprachspezifische Charaktere wie (ä, ö, ü, ß) nach dem Tokenisierungsprozess in den Innen -Token behalten kann, um eine unbeabsichtigte Fehlveradungskosten zu vermeiden, d. H. "Zügiger" wird so etwas wie ['Z', 'ü', 'g', 'iger'.>
Ich habe eine abgrenzende Datei, die ein Schmerz zum Lesen sein kann. Daher habe ich eine Swing -Anwendung, die den Inhalt der Dateien aufnimmt und sie in eine jTextArea steckt. Japanische und...
Ich verwende Python Selenium, um ein Discord-Konto zu erstellen ( aber es ist durch ein Hcaptcha geschützt. Ich habe eine Captcha-API (2captcha/capmonster), um ein Captcha-Token zurückzugeben und es...
Ich versuche, Web-API2, JWT, Microsoft.IdentityModel.jsonWBtokens 5.2.422 und die in diesem Artikel beschriebene Token-Validierungslogik zu verwenden: /p>
Ich stelle Antiforgy für die .net+Angular-App ein.
Ich deklariere Einstellungen für die Sitzung
builder.Services.AddSession(options => {
options.IdleTimeout = TimeSpan.FromMinutes(20);...