Page 1 of 1

Das Ollama -Modell behalten Sie den Gedächtnis und verhindern Sie das Entladen zwischen Anforderungen (Keep_alive?)

Posted: 18 Mar 2025, 18:51
by Anonymous
Egal was ich vom Terminal oder im Code tue, der Agent -Anfragen an Ollama -Modelle dauert jedes Mal 15–25 Sekunden auf meinem lokalen M2 MacBook Pro. /> Meine Schlussfolgerung, dass das Modell jedes Mal aus dem Speicher entlädt und eine neue Anforderung lädt. Und es kann sich ändern, wenn sie aus CLI auslaufen, aber ich konnte keine Dokumente darüber finden, wie man es in Python verwendet, obwohl es anscheinend Fehler beim Hinzufügen dieser Funktion gibt.