Den FastAPI ML-Server schneller machen [Duplikat]

Den FastAPI ML-Server schneller machen [Duplikat] ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Den FastAPI ML-Server schneller machen [Duplikat]

Report
Quote

Post by Anonymous » 22 Dec 2024, 06:34

Ich habe einen FastAPI-Server, bei dem ein HTTP-GET (/get_documents/), gibt es zwei Engpässe bei der schnellen Rückgabe einer Antwort: Es gibt einen Aufruf an einen anderen Server über einen Client („Get Vectors“), dann gibt es einen Aufruf an ein LLM (im Prozessspeicher), um Text zu generieren. Beide sind sehr langsam. Ich denke, dass der „Get Vectors“-Aufruf an den anderen Server hinter einen Wait gestellt werden könnte, sodass die CPU frei wird, während sie auf die Rückkehr des externen Aufrufs wartet. Allerdings glaube ich nicht, dass es für den Aufruf des LLM in Bearbeitung von Vorteil wäre, wenn er hinter einem Wait steht, da er für die Beantwortung der Abfrage einen Abschluss auf der CPU erfordert. Außerdem bin ich mir nicht sicher, ob ich /get_documents/ für FastAPI asynchron machen soll. Ich lese immer wieder darüber, verliere mich aber, da von „Threads“ die Rede ist, aber Python die GIL hat ... Was wäre die beste Strategie für den externen Aufruf (über den Client) und den Aufruf an das LLM? /get_documents/, das in FastAPI läuft? Ich hoffe auf eine möglichst einfache Lösung.

1734845669

Anonymous

Ich habe einen FastAPI-Server, bei dem ein HTTP-GET (/get_documents/), gibt es zwei Engpässe bei der schnellen Rückgabe einer Antwort: Es gibt einen Aufruf an einen anderen Server über einen Client („Get Vectors“), dann gibt es einen Aufruf an ein LLM (im Prozessspeicher), um Text zu generieren. Beide sind sehr langsam. Ich denke, dass der „Get Vectors“-Aufruf an den anderen Server hinter einen Wait gestellt werden könnte, sodass die CPU frei wird, während sie auf die Rückkehr des externen Aufrufs wartet. Allerdings glaube ich nicht, dass es für den Aufruf des LLM in Bearbeitung von Vorteil wäre, wenn er hinter einem Wait steht, da er für die Beantwortung der Abfrage einen Abschluss auf der CPU erfordert. Außerdem bin ich mir nicht sicher, ob ich /get_documents/ für FastAPI asynchron machen soll. Ich lese immer wieder darüber, verliere mich aber, da von „Threads“ die Rede ist, aber Python die GIL hat ... Was wäre die beste Strategie für den externen Aufruf (über den Client) und den Aufruf an das LLM? /get_documents/, das in FastAPI läuft? Ich hoffe auf eine möglichst einfache Lösung.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Erhalten Sie schneller eine Liste der SQL-Server

Last post by Anonymous « 17 Jan 2025, 10:51
Posted in C#

by Anonymous » 17 Jan 2025, 10:51 » in C#

Ich verwende diesen Code, um eine Liste der SQL-Server abzurufen:
SqlDataSourceEnumerator instances = SqlDataSourceEnumerator.Instance;
System.Data.DataTable table = instances.GetDataSources();...

0 Replies

13 Views

Last post by Anonymous
17 Jan 2025, 10:51
FastAPI + Apache. Die 409-Antwort von FastAPI wird in 502 umgewandelt. Was kann der Grund sein?

Last post by Guest « 31 Dec 2024, 14:23
Posted in Python

by Guest » 31 Dec 2024, 14:23 » in Python

Ich habe eine FastAPI-Anwendung, die im Allgemeinen gut funktioniert. Mein Setup ist Apache als Proxy und ein FastAPI-Server dahinter. Dies ist die Apache-Konfiguration:
ProxyPass /fs retry=1...

0 Replies

43 Views

Last post by Guest
31 Dec 2024, 14:23
Warum ist Torch.fft.rfft(x) schneller als Torch.fft.rfft(x, out=y)?

Last post by Guest « 05 Jan 2025, 10:38
Posted in Python

by Guest » 05 Jan 2025, 10:38 » in Python

Bei der Verwendung der Funktion Torch.fft.rfft von PyTorch habe ich festgestellt, dass die Angabe eines Ausgabetensors mithilfe des Parameters out langsamer ist, als die Ausgabe intern von PyTorch...

0 Replies

23 Views

Last post by Guest
05 Jan 2025, 10:38
Warum ist Torch.fft.rfft(x) schneller als Torch.fft.rfft(x, out=y)?

Last post by Guest « 08 Jan 2025, 08:36
Posted in Python

by Guest » 08 Jan 2025, 08:36 » in Python

Bei der Verwendung der Funktion Torch.fft.rfft von PyTorch habe ich festgestellt, dass die Angabe eines Ausgabetensors mithilfe des Parameters out langsamer ist, als die Ausgabe intern von PyTorch...

0 Replies

20 Views

Last post by Guest
08 Jan 2025, 08:36
Was schneller ist – unsicherer C#-Code oder rohes C++

Last post by Guest « 13 Jan 2025, 11:10
Posted in C#

by Guest » 13 Jan 2025, 11:10 » in C#

Ich schreibe ein Bildverarbeitungsprogramm, um die Echtzeitverarbeitung von Videobildern durchzuführen. Es ist in C# und verwendet die Emgu.CV-Bibliothek (C#), die die OpenCV-Bibliotheks-DLL (nicht...

0 Replies

12 Views

Last post by Guest
13 Jan 2025, 11:10

Return to “Python”