GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token
Posted: 02 Apr 2025, 19:11
Ich verstehe, dass die Label -ID -100 -ID so verwendet wird, dass die Vorhersagen für diese bei der Berechnung des Verlusts nicht enthalten sind. In ihrer Implementierung verwenden sie nn.crossentropyloss (), das ein Argument "Ignore_index" hat. Oder sind die Ergebnisse gleich?