GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token ⇐ Python
GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token
Ich verstehe, dass die Label -ID -100 -ID so verwendet wird, dass die Vorhersagen für diese bei der Berechnung des Verlusts nicht enthalten sind. In ihrer Implementierung verwenden sie nn.crossentropyloss (), das ein Argument "Ignore_index" hat. Oder sind die Ergebnisse gleich?
-
- Similar Topics
- Replies
- Views
- Last post