Wie können die MoE-Inferenzkosten (Mixture of Experts) durch dynamische Expertenauswahl gesenkt werden?Python

Python-Programme
Anonymous
 Wie können die MoE-Inferenzkosten (Mixture of Experts) durch dynamische Expertenauswahl gesenkt werden?

Post by Anonymous »

Ich führe Inferenz auf Mixture-of-Experts-Modellen wie Mixtral 8x7B durch und finde, dass die Rechenkosten hoch sind.
Das Modell verwendet feste K=2 Experten pro Token, aber ich vermute, dass nicht alle Token den gleichen Rechenaufwand benötigen.
Gibt es eine Möglichkeit, die Anzahl der Experten basierend auf der Eingabekomplexität dynamisch auszuwählen? Ich habe von der Verwendung von Routing-Entropie als Signal gehört, kann aber keine Implementierungsdetails finden.
Suche nach:
- Eine Methode, um zu bestimmen, wann weniger Experten ausreichen
- Minimale Auswirkung auf die Ausgabequalität (Ratlosigkeit)
- Etwas, das mit vorhandenen MoE-Architekturen funktioniert

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post