LLM ordnet Abfragewerte falschen Spalten in der Text-to-SQL-Pipeline zu (DuckDB + Qwen 2.5)

LLM ordnet Abfragewerte falschen Spalten in der Text-to-SQL-Pipeline zu (DuckDB + Qwen 2.5) ⇐ Python

1 post • Page 1 of 1

Anonymous

LLM ordnet Abfragewerte falschen Spalten in der Text-to-SQL-Pipeline zu (DuckDB + Qwen 2.5)

Report
Quote

Post by Anonymous » 30 Dec 2025, 15:54

Ich baue einen Chatbot-Assistenten für türkische Studenten mit DuckDB und Qwen 2.5 7B (Coder). Mein Arbeitsablauf ist: Benutzerfrage (TR) -> LLM -> SQL-Abfrage -> DuckDB -> Endgültige Antwort (TR).
Das Problem: Aufgrund der Einschränkungen des Kontextfensters kann ich nicht das vollständige Schema (600 Spalten) in das 7B-Modell einspeisen. Selbst wenn ich ein zusammengefasstes Schema bereitstelle, hat das Modell Probleme mit der Schemaverknüpfung. Es identifiziert den Wert, nach dem Benutzer fragen, korrekt, ordnet ihn jedoch der falschen Spalte zu.
Minimales Beispiel: Nehmen wir an, ich habe eine vereinfachte Schemastruktur wie diese:

Code: Select all
```
university_name
```
(z. B. Stanford, MIT)
Code: Select all
```
program_name
```
(z. B. Informatik, Biologie)
Code: Select all
```
city
```
(z. B. Boston, Kalifornien)
Benutzerfrage: „Welche Universität hat die beste Informatik-Abteilung?

Erwartetes SQL:
SQL

Code: Select all

SELECT * FROM view_one WHERE program_name ILIKE '%Computer Science%'

Tatsächlich generiertes SQL (Der Fehler):
SQL

Code: Select all

SELECT * FROM view_one WHERE university_name ILIKE '%Computer Science%'

Dinge, die ich ausprobiert habe:
1.RAG-Kontext: Ich rufe relevante Werte mithilfe einer Vektordatenbank (ChromaDB) ab, was die Entitätserkennung verbessert, aber die Zuordnung dieser Entitäten zur richtigen SQL-Spalte bleibt ein Problem.

Spaltenbeschreibungen: Ich habe in der Systemeingabeaufforderung Beschreibungen für
Schlüsselspalten hinzugefügt.
Schema-Gruppierung: Ich habe versucht, das Schema in logische Gruppen aufzuteilen
(z. B. „Grundlegende Informationen“, „Statistiken“), aber die dynamische Auswahl mit einem 7B-Modell
war inkonsistent.
Fuzzy-Matching: Ich habe Fuzzy-Matching implementiert, um Tippfehler zu behandeln, was
bei der Werteabfrage hilft, aber die Logik der Spaltenauswahl
nicht löst.

Meine Frage: Was ist bei großen Tabellen (mehr als 600 Spalten) der branchenübliche Ansatz für ein kleineres LLM (7B), um Werte zuverlässig den richtigen Spalten zuzuordnen? Sollte ich einen mehrstufigen Agenten verwenden (Router -> Schema Pruning -> SQL Generation) oder gibt es eine bessere Aufforderungstechnik?

1767106494

Anonymous

Ich baue einen Chatbot-Assistenten für türkische Studenten mit [b]DuckDB[/b] und [b]Qwen 2.5 7B (Coder)[/b]. Mein Arbeitsablauf ist: Benutzerfrage (TR) -> LLM -> SQL-Abfrage -> DuckDB -> Endgültige Antwort (TR).
[b]Das Problem:[/b] Aufgrund der Einschränkungen des Kontextfensters kann ich nicht das vollständige Schema (600 Spalten) in das 7B-Modell einspeisen. Selbst wenn ich ein zusammengefasstes Schema bereitstelle, hat das Modell Probleme mit der [b]Schemaverknüpfung[/b]. Es identifiziert den Wert, nach dem Benutzer fragen, korrekt, ordnet ihn jedoch der [b]falschen Spalte[/b] zu.
[b]Minimales Beispiel:[/b] Nehmen wir an, ich habe eine vereinfachte Schemastruktur wie diese:
[list]
[*][code]university_name[/code] (z. B. Stanford, MIT)[code]program_name[/code] (z. B. Informatik, Biologie)

[*][code]city[/code] (z. B. Boston, Kalifornien)

[*][b]Benutzerfrage:[/b] „Welche Universität hat die beste [b]Informatik[/b]-Abteilung?

[*][b]Erwartetes SQL:[/b]
SQL
[code]SELECT * FROM view_one WHERE program_name ILIKE '%Computer Science%'

[/code]

[*][b]Tatsächlich generiertes SQL (Der Fehler):[/b]
SQL
[code]SELECT * FROM view_one WHERE university_name ILIKE '%Computer Science%'

[/code]

[/list]
Dinge, die ich ausprobiert habe:
1.RAG-Kontext: Ich rufe relevante Werte mithilfe einer Vektordatenbank (ChromaDB) ab, was die Entitätserkennung verbessert, aber die Zuordnung dieser Entitäten zur richtigen SQL-Spalte bleibt ein Problem.
[list]
[*]Spaltenbeschreibungen: Ich habe in der Systemeingabeaufforderung Beschreibungen für
Schlüsselspalten hinzugefügt.
[*]Schema-Gruppierung: Ich habe versucht, das Schema in logische Gruppen aufzuteilen
(z. B. „Grundlegende Informationen“, „Statistiken“), aber die dynamische Auswahl mit einem 7B-Modell
war inkonsistent.
[*]Fuzzy-Matching: Ich habe Fuzzy-Matching implementiert, um Tippfehler zu behandeln, was
bei der Werteabfrage hilft, aber die Logik der Spaltenauswahl
nicht löst.
[/list]
Meine Frage: Was ist bei großen Tabellen (mehr als 600 Spalten) der branchenübliche Ansatz für ein kleineres LLM (7B), um Werte zuverlässig den richtigen Spalten zuzuordnen? Sollte ich einen mehrstufigen Agenten verwenden (Router -> Schema Pruning -> SQL Generation) oder gibt es eine bessere Aufforderungstechnik?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

So konvertieren Sie die LLAMA4SCOUT in Tensorrt-Llm-Kontrollpunkte mit dem Tensorrt-Llm-Backend zum Server

Last post by Anonymous « 16 Sep 2025, 22:01
Posted in Python

by Anonymous » 16 Sep 2025, 22:01 » in Python

Ich versuche, die Checkpoints für das Modell von Llama4Scout-Scout-17B-16E zu erhalten. Ich erhalte ständig den folgenden Fehler....

0 Replies

379 Views

Last post by Anonymous
16 Sep 2025, 22:01
Oserrror: Qwen/Qwen2.5-VL-7B-Instruct scheint keine Dateien mit dem Namen Model-00002-Of-00005 zu haben.

Last post by Anonymous « 08 Apr 2025, 14:45
Posted in Python

by Anonymous » 08 Apr 2025, 14:45 » in Python

Ich versuche, das QWEN2.5-VL-7B-Modell für mein Projekt zu verwenden, und ich habe eine lokale Datei mit dem Namen Model-00002-of-00005 heruntergeladen. Wenn ich jedoch meinen Code ausführe, begegne...

0 Replies

33 Views

Last post by Anonymous
08 Apr 2025, 14:45
Sys.prefix zeigt auf einen falschen Standort, Pakete, die an falschen Standorten installiert werden

Last post by Anonymous « 01 Mar 2025, 15:50
Posted in Python

by Anonymous » 01 Mar 2025, 15:50 » in Python

Nachdem ich Python in diesem Tag versehentlich deinstalliert hatte, habe ich versucht, es neu zu installieren, aber sys.prefix wurde durcheinander und weigerte sich, sich selbst zu fixieren. In g: \...

0 Replies

51 Views

Last post by Anonymous
01 Mar 2025, 15:50
Die obere Pipeline wird nicht in der Nähe des Bildes angezeigt. Im oberen Bild Pipeline Python 3.x

Last post by Anonymous « 11 Apr 2025, 12:33
Posted in Python

by Anonymous » 11 Apr 2025, 12:33 » in Python

** Ich habe Errores im Code. Ich weiß nicht, was ich tun soll. def procesar_imagenes_html(doc):

script_dir = os.path.dirname(os.path.abspath(__file__))
attachments_dir = os.path.join(script_dir,...

0 Replies

61 Views

Last post by Anonymous
11 Apr 2025, 12:33
Normalisieren Sie eine Listenspalte in Duckdb SQL

Last post by Anonymous « 17 Mar 2025, 15:03
Posted in Python

by Anonymous » 17 Mar 2025, 15:03 » in Python

Sag, ich habe:
import polars as pl

df = pl.DataFrame({'a': , 'b': }).with_columns(c=pl.concat_list('a', 'b'))

print(df)

shape: (3, 3)
┌─────┬─────┬───────────┐
│ a ┆ b ┆ c │
│ --- ┆ --- ┆ ---...

0 Replies

23 Views

Last post by Anonymous
17 Mar 2025, 15:03

Return to “Python”