Die LLM-Inferenz gibt trotz festgelegter Saatgut- und Temperaturwerte während der Produktionsläufe eine nicht determinisPython

Python-Programme
Anonymous
 Die LLM-Inferenz gibt trotz festgelegter Saatgut- und Temperaturwerte während der Produktionsläufe eine nicht determinis

Post by Anonymous »

Ich entwickle einen generativen KI-Dienst, der ein großes Sprachmodell zur Textgenerierung verwendet. Bei lokalen Tests und Produktionsläufen ist mir aufgefallen, dass die Inferenzergebnisse selbst bei Verwendung derselben Eingabe und Konfiguration nicht deterministisch sind.
Vereinfachter Code:

Code: Select all

import random
import torch

random.seed(42)
torch.manual_seed(42)

response = llm.generate(
prompt="Generate a concise Salesforce Apex trigger example",
temperature=0,
top_p=1.0
)
Fehler/unerwartetes Verhalten

Wiederholte Inferenzaufrufe mit derselben Eingabeaufforderung führen zu leicht unterschiedlichen Ausgaben (Wortlaut und Satzstruktur), obwohl die Parameter für den Zufallsstartwert und die Generierung festgelegt sind.
Was ich versucht habe
  • Zufallsstartwerte auf Framework-Ebene korrigiert
  • Temperatur = 0 einstellen und top_p = 1,0
  • Überprüft, dass die gleiche Modellversion verwendet wird
  • Streaming-Antworten deaktiviert
Das Problem tritt immer noch auf, insbesondere bei gleichzeitigen Anfragen.
Frage

Welche Teile der LLM-Inferenz führen in diesem Setup zu Nichtdeterminismus und welche Änderungen sind erforderlich, um eine deterministische Ausgabe während der Produktionsinferenz zu gewährleisten?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post