GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token ⇐ Python
- 
				Anonymous
 
						 GPT -2 und andere Modelle von Huggingface -100 Label -Index für das Training anstelle von Pad Token
													
							
						
			
			
			
			
										
						
		Ich verstehe, dass die Label -ID -100 -ID so verwendet wird, dass die Vorhersagen für diese bei der Berechnung des Verlusts nicht enthalten sind. In ihrer Implementierung verwenden sie nn.crossentropyloss (), das ein Argument "Ignore_index" hat. Oder sind die Ergebnisse gleich?
			
			
			
			
						- 
				
- Similar Topics
 - Replies
 - Views
 - Last post
 
 
 Mobile version