Den FastAPI ML-Server schneller machen [Duplikat] ⇐ Python
Den FastAPI ML-Server schneller machen [Duplikat]
Ich habe einen FastAPI-Server, bei dem ein HTTP-GET (/get_documents/), gibt es zwei Engpässe bei der schnellen Rückgabe einer Antwort: Es gibt einen Aufruf an einen anderen Server über einen Client („Get Vectors“), dann gibt es einen Aufruf an ein LLM (im Prozessspeicher), um Text zu generieren. Beide sind sehr langsam. Ich denke, dass der „Get Vectors“-Aufruf an den anderen Server hinter einen Wait gestellt werden könnte, sodass die CPU frei wird, während sie auf die Rückkehr des externen Aufrufs wartet. Allerdings glaube ich nicht, dass es für den Aufruf des LLM in Bearbeitung von Vorteil wäre, wenn er hinter einem Wait steht, da er für die Beantwortung der Abfrage einen Abschluss auf der CPU erfordert. Außerdem bin ich mir nicht sicher, ob ich /get_documents/ für FastAPI asynchron machen soll. Ich lese immer wieder darüber, verliere mich aber, da von „Threads“ die Rede ist, aber Python die GIL hat ... Was wäre die beste Strategie für den externen Aufruf (über den Client) und den Aufruf an das LLM? /get_documents/, das in FastAPI läuft? Ich hoffe auf eine möglichst einfache Lösung.
-
- Similar Topics
- Replies
- Views
- Last post