Ich arbeite derzeit an einem Python-basierten Gen-KI-Projekt, das die effiziente Bereitstellung und Bereitstellung mehrerer LLMs, insbesondere Modelle mit unterschiedlichen Parameterzahlen (Llama-2 7B und Mistral 7B), auf einer einzigen GPU-Infrastruktur erfordert, um die Latenz zu minimieren und den Durchsatz zu maximieren.
Ich verwende die in PyTorch integrierte Hugging Face-Transformatoren-Bibliothek und stehe vor einer erheblichen Herausforderung, wenn es darum geht, eine optimale GPU-Speicherauslastung und Bereitstellungseffizienz bei gleichzeitigem Betrieb zu erreichen laden.
1 – Die spezifische Herausforderung: Welche sind die empfohlenen Strategien oder Best Practices für die Implementierung ressourcenbewusster Bereitstellung? Wie kann man GPU-Speicher und Rechenressourcen zwischen Modellen unterschiedlicher Größe, die gleichzeitig auf derselben Hardware ausgeführt werden, effektiv verwalten und dynamisch zuweisen?
2 – Technischer Implementierungsschwerpunkt: Ich suche nach Erkenntnissen darüber, wie man fortgeschrittene Techniken wie Batching (modellübergreifend), Paging Attention (vLLMs Kernmechanismus) oder Tensorparallelität effizient in diesem speziellen Multimodell- und Multigrößen-Serving-Setup nutzen oder integrieren kann.
3 – Tools Empfehlung: Gibt es bestimmte Python-Bibliotheken oder Frameworks (vLLM, Text Generation Inference, Triton Inference Server oder Ray), die sich nahtlos in das Hugging Face/PyTorch-Ökosystem integrieren lassen und für genau dieses Szenario einer Standard-Transformer-Pipeline überlegen sind, insbesondere wenn es um die Balance zwischen hoher Ressourceneffizienz und Flexibilität bei Modellgröße und Anforderungsverarbeitung geht?
Detaillierte Codebeispiele oder Verweise auf bewährte Architekturen wären sehr willkommen.
Optimierungsherausforderung in Hugging Face: Effiziente Bereitstellung mehrerer LLMs unterschiedlicher Größe auf einer e ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post
Mobile version