Die Subword-Methode OOV zeigt 0,00 % für alle Tokenizer an, aber ich denke, das sollte nicht der Fall sein

Die Subword-Methode OOV zeigt 0,00 % für alle Tokenizer an, aber ich denke, das sollte nicht der Fall sein ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Die Subword-Methode OOV zeigt 0,00 % für alle Tokenizer an, aber ich denke, das sollte nicht der Fall sein

Report
Quote

Post by Anonymous » 10 Jan 2026, 15:46

Ich versuche, 4 Tokenisierer meiner Wahl zu analysieren und wollte eine OOV-Metrik basierend auf dem Unterwort einbinden. Die Funktionsweise ist ziemlich einfach:

Code: Select all

def compute_oov_rate_subword(tokenizer, sentences):
total_words = 0
oov_words = 0

for s in sentences:
words = s.split()
for word in words:
total_words += 1
word_tokens = tokenizer.tokenize(word)

if tokenizer.unk_token in word_tokens:
oov_words += 1

return oov_words / total_words if total_words \> 0 else 0.0

subword_oov_results = {}

Es durchläuft jeden Satz und teilt ihn in einzelne Wörter auf. Die Kernlogik besteht darin, zu prüfen, ob tokenizer.unk_token (unbekanntes Token) in den für ein bestimmtes Wort generierten word_tokens vorhanden ist. Wenn dies der Fall ist, wird das Wort als OOV-Wort gezählt.
Das Problem ist, dass ich 0,00 % für alle von mir ausgewählten Modell-Tokenizer erhalte (GPT2, LLaMa, XLM-R), außer BERT (bert-base-uncased um genau zu sein) – es sind 0,967623 %.

Es funktioniert, wenn ich meinen anderen Algorithmus verwende – den, der jedes Wort zeichenweise aufteilt Charakter. Ich erhalte dann 0,15 %–0,20 %, was in Ordnung ist, da die Datensätze recht klein sind (1000 Sätze pro Sprache). Wenn sie also größer wären, würde der OOV näher bei 0 % liegen (ich denke, korrigieren Sie mich, wenn ich falsch liege).
Ja, ich weiß, dass die OOV-Metrik normalerweise zum Vergleichen/Analysen von Modellen verwendet wird und nicht für die Tokenisierer, aber ich würde trotzdem gerne nach den UNK-Tokens suchen meine Datensätze (es gibt Sätze auf Englisch, Japanisch und Humgarisch).

Ich denke, dass es nicht 0,00 % sein sollte und vielleicht haben diese Tokenizer eine andere Möglichkeit, mit unbekannten Token zu arbeiten. Alle Tipps werden hilfreich sein, insbesondere, dass ich immer wieder viele Artikel über Modelle und ihre Analyse finde, aber nicht über die Tokenizer selbst.

1768056405

Anonymous

Ich versuche, 4 Tokenisierer meiner Wahl zu analysieren und wollte eine OOV-Metrik basierend auf dem Unterwort einbinden. Die Funktionsweise ist ziemlich einfach:
[code]def compute_oov_rate_subword(tokenizer, sentences):
total_words = 0
oov_words = 0

for s in sentences:
words = s.split()
for word in words:
total_words += 1
word_tokens = tokenizer.tokenize(word)

if tokenizer.unk_token in word_tokens:
oov_words += 1

return oov_words / total_words if total_words \> 0 else 0.0

subword_oov_results = {}
[/code]
Es durchläuft jeden Satz und teilt ihn in einzelne Wörter auf. Die Kernlogik besteht darin, zu prüfen, ob tokenizer.unk_token (unbekanntes Token) in den für ein bestimmtes Wort generierten word_tokens vorhanden ist. Wenn dies der Fall ist, wird das Wort als OOV-Wort gezählt.
Das [url=viewtopic.php?t=26065]Problem[/url] ist, dass ich 0,00 % für alle von mir ausgewählten Modell-Tokenizer erhalte (GPT2, LLaMa, XLM-R), außer BERT (bert-base-uncased um genau zu sein) – es sind 0,967623 %.

Es funktioniert, wenn ich meinen anderen Algorithmus verwende – den, der jedes Wort zeichenweise aufteilt Charakter. Ich erhalte dann 0,15 %–0,20 %, was in Ordnung ist, da die Datensätze recht klein sind (1000 Sätze pro Sprache). Wenn sie also größer wären, würde der OOV näher bei 0 % liegen (ich denke, korrigieren Sie mich, wenn ich falsch liege).
Ja, ich weiß, dass die OOV-Metrik normalerweise zum Vergleichen/Analysen von Modellen verwendet wird und nicht für die Tokenisierer, aber ich würde trotzdem gerne nach den UNK-Tokens suchen meine Datensätze (es gibt Sätze auf Englisch, Japanisch und Humgarisch).

Ich denke, dass es nicht 0,00 % sein sollte und vielleicht haben diese Tokenizer eine andere Möglichkeit, mit unbekannten Token zu arbeiten. Alle Tipps werden hilfreich sein, insbesondere, dass ich immer wieder viele Artikel über Modelle und ihre Analyse finde, aber nicht über die Tokenizer selbst.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Die Character AI API schließt die Verbindung, wenn dies nicht der Fall sein sollte

Last post by Guest « 22 Dec 2024, 07:52
Posted in Python

by Guest » 22 Dec 2024, 07:52 » in Python

Ich habe versucht, Spracherkennung und Character.AI zu züchten (weil es eine schöne kostenlose API hat). Wenn ich versuche, eine Nachricht zu senden, bricht die Verbindung plötzlich ab.
Ich habe...

0 Replies

64 Views

Last post by Guest
22 Dec 2024, 07:52
Audio -Vordergrundservice wird auf App Kill gestoppt oder getrennt, wenn dies nicht der Fall sein sollte

Last post by Anonymous « 03 Jun 2025, 11:57
Posted in Android

by Anonymous » 03 Jun 2025, 11:57 » in Android

Ich baue einen Flutter -Android -Audio -Streaming -Service mit Exoplayer in Kotlin. Der Service spielt Live -Audio -Streams und zeigt Medienkontrollen über eine Benachrichtigung. Es funktioniert gut,...

0 Replies

48 Views

Last post by Anonymous
03 Jun 2025, 11:57
FRINDE-REMOTING SimpleHttpinVokerRequestexecutor-Wiederholungsanfrage, wenn dies nicht der Fall sein sollte

Last post by Anonymous « 01 Jul 2025, 08:59
Posted in Java

by Anonymous » 01 Jul 2025, 08:59 » in Java

Ich untersuche ein ziemlich seltsames Problem. Das Projekt, an dem ich arbeite, verwendet Spring-Remoting, um Methoden über HTTP aufzurufen. Nach dem, was ich bisher gesammelt habe, geschieht...

0 Replies

35 Views

Last post by Anonymous
01 Jul 2025, 08:59
Turtle funktioniert nicht, ich versuche es auszuführen. Ich denke, es könnte an der IDE liegen [Duplikat]

Last post by Anonymous « 27 Dec 2025, 19:02
Posted in Python

by Anonymous » 27 Dec 2025, 19:02 » in Python

Ich versuche, ein Problem zu beheben, das ich mit Python/Turtle habe. Ich dachte, ich hätte etwas falsch gemacht, zum Beispiel etwas in der IDE falsch geschrieben, aber dann habe ich genau denselben...

0 Replies

2 Views

Last post by Anonymous
27 Dec 2025, 19:02
Wenn Sie Probleme verwenden, Google Mail-API zu verwenden, gibt es etwas falsch mit Google Mail.buidler, ich denke, ich

Last post by Anonymous « 21 Mar 2025, 07:55
Posted in Java

by Anonymous » 21 Mar 2025, 07:55 » in Java

Dies ist mein erstes Projekt in Spring Boot (Noob), ich wollte diesen Google Mail -Senden -Dienst erstellen, ich habe Code von einem Repository erhalten, aber es funktioniert nicht, ich habe...

0 Replies

63 Views

Last post by Anonymous
21 Mar 2025, 07:55

Return to “Python”