Skalierung von Lag -QA mit großen Dokumenten, Tischen und 30k+ Stücken (keine Langchain)

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Skalierung von Lag -QA mit großen Dokumenten, Tischen und 30k+ Stücken (keine Langchain)

by Anonymous » 02 Jun 2025, 18:30

Ich baue ein QA-System auf rappenbasiertem Dokument mit Python (no Langchain), Lama (50K-Kontext), PostgreSQL mit PGVector und Docling for Parsing. Benutzer können bis zu 10 große Dokumente hochladen (jeweils 300 Seiten), die häufig zahlreiche Tabellen und Diagramme enthalten. Chunk zur Verbesserung der rensiver, aber:
Es ist zu teuer, LLM-Zusammenfassungen für alle 30k-Abschnitte zu erzeugen. bewährte Strategien zu:
Präzision beim ersten Abrufen in der Skala
tabel-haavy-Inhalt effektiver
Kosten reduzieren und gleich

Top