GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad TokenPython

Python-Programme
Anonymous
 GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token

Post by Anonymous »

Ich verstehe, dass die Label -ID -100 -ID so verwendet wird, dass die Vorhersagen für diese bei der Berechnung des Verlusts nicht enthalten sind. In ihrer Implementierung verwenden sie nn.crossentropyloss (), das ein Argument "Ignore_index" hat. Oder sind die Ergebnisse gleich?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post