Das Ollama -Modell behalten Sie den Gedächtnis und verhindern Sie das Entladen zwischen Anforderungen (Keep_alive?) ⇐ Python
Das Ollama -Modell behalten Sie den Gedächtnis und verhindern Sie das Entladen zwischen Anforderungen (Keep_alive?)
Egal was ich vom Terminal oder im Code tue, der Agent -Anfragen an Ollama -Modelle dauert jedes Mal 15–25 Sekunden auf meinem lokalen M2 MacBook Pro. /> Meine Schlussfolgerung, dass das Modell jedes Mal aus dem Speicher entlädt und eine neue Anforderung lädt. Und es kann sich ändern, wenn sie aus CLI auslaufen, aber ich konnte keine Dokumente darüber finden, wie man es in Python verwendet, obwohl es anscheinend Fehler beim Hinzufügen dieser Funktion gibt.
-
- Similar Topics
- Replies
- Views
- Last post