Ich führe Inferenz auf Mixture-of-Experts-Modellen wie Mixtral 8x7B durch und finde, dass die Rechenkosten hoch sind.
Das Modell verwendet feste K=2 Experten pro Token, aber ich vermute, dass nicht alle Token den gleichen Rechenaufwand benötigen.
Gibt es eine Möglichkeit, die Anzahl der Experten basierend auf der Eingabekomplexität dynamisch auszuwählen? Ich habe von der Verwendung von Routing-Entropie als Signal gehört, kann aber keine Implementierungsdetails finden.
Suche nach:
- Eine Methode, um zu bestimmen, wann weniger Experten ausreichen
- Minimale Auswirkung auf die Ausgabequalität (Ratlosigkeit)
- Etwas, das mit vorhandenen MoE-Architekturen funktioniert
Wie können die MoE-Inferenzkosten (Mixture of Experts) durch dynamische Expertenauswahl gesenkt werden? ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post
Mobile version