Programmiererforum

Posted: **02 Apr 2025, 19:11**

Ich verstehe, dass die Label -ID -100 -ID so verwendet wird, dass die Vorhersagen für diese bei der Berechnung des Verlusts nicht enthalten sind. In ihrer Implementierung verwenden sie nn.crossentropyloss (), das ein Argument "Ignore_index" hat. Oder sind die Ergebnisse gleich?

Programmiererforum

GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token

GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token