Wie extrahiere ich das Begrenzungsfeld aus einem Bild, das die Antwort auf eine bestimmte Frage enthält? - Programmiererforum

Wie extrahiere ich das Begrenzungsfeld aus einem Bild, das die Antwort auf eine bestimmte Frage enthält? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie extrahiere ich das Begrenzungsfeld aus einem Bild, das die Antwort auf eine bestimmte Frage enthält?

Report
Quote

Post by Anonymous » 01 Jul 2025, 11:04

Ich arbeite an einer Aufgabe, bei der ich angegeben bin: < /p>

Eine Frage < /li>
Ein Bild (die Text, Tabellen oder visuelle Inhalte enthalten kann). /> Was ich ausprobiert habe: < /p>

Ich habe LLMs (OpenAI und Anthropic) mit strukturierter Ausgabe verwendet, um die Koordinaten zu erhalten. Die Ergebnisse waren jedoch nicht zuverlässig, die Genauigkeit betrug etwa 30%und die Begrenzungsboxen waren oft aus oder nicht in Beziehung.class BoundingBox(BaseModel):
top_left: List[int]
bottom_right: List[int]
content: str
confidence: float

class ImageAnalysisResult(BaseModel):
question: str
image_resolution: List[int]
bounding_boxes: List[BoundingBox]
overall_answer: str

response = client.responses.parse(
model=model,
temperature=0.0,
input=[
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": [
{
"type": "input_text",
"text": user_prompt,
},
{
"type": "input_image",
"image_url": f"data:image/png;base64,{base64_image}",
"detail": "high",
},
],
},
],
text_format=ImageAnalysisResult,
)
< /code>
Was ich suche: < /p>

Ein vorgezogenes Modell oder eine kombinierte Methode mit NLP + CV2 -Basis, die die Antwort innerhalb des Bildes unter Verwendung von Grenzbox -Koordinaten finden kann. /> Beispiel Ergebnis:
Beispielergebnis < /p>
Vorschläge für Modelle, Bibliotheken oder Workflows, die helfen können?>

1751360652

Anonymous

Ich arbeite an einer Aufgabe, bei der ich angegeben bin: < /p>

 Eine Frage < /li>
 Ein Bild (die Text, Tabellen oder visuelle Inhalte enthalten kann). />  Was ich ausprobiert habe: < /p>

 Ich habe LLMs (OpenAI und Anthropic) mit strukturierter Ausgabe verwendet, um die Koordinaten zu erhalten. Die Ergebnisse waren jedoch nicht zuverlässig, die Genauigkeit betrug etwa 30%und die Begrenzungsboxen waren oft aus oder nicht in Beziehung.class BoundingBox(BaseModel):
top_left: List[int]
bottom_right: List[int]
content: str
confidence: float

class ImageAnalysisResult(BaseModel):
question: str
image_resolution: List[int]
bounding_boxes: List[BoundingBox]
overall_answer: str

response = client.responses.parse(
model=model,
temperature=0.0,
input=[
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": [
{
"type": "input_text",
"text": user_prompt,
},
{
"type": "input_image",
"image_url": f"data:image/png;base64,{base64_image}",
"detail": "high",
},
],
},
],
text_format=ImageAnalysisResult,
)
< /code>
Was ich suche: < /p>

 Ein vorgezogenes Modell oder eine kombinierte Methode mit NLP + CV2 -Basis, die die Antwort innerhalb des Bildes unter Verwendung von Grenzbox -Koordinaten finden kann. />  Beispiel Ergebnis:
Beispielergebnis < /p>
Vorschläge für Modelle, Bibliotheken oder Workflows, die helfen können?>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wenn ich in Moodle eine Frage aktualisiere, wird eine neue Kopie dieser Frage erstellt. Nun möchte ich wissen, ob es in

Last post by Guest « 07 Jan 2025, 12:49
Posted in Php

by Guest » 07 Jan 2025, 12:49 » in Php

Ich habe ein Quiz erstellt, das alle Fragen aus der Moodle-Datenbank abruft, aber wenn sich an der Frage etwas ändert, erstellt Moodle eine weitere Kopie dieser Frage. Jetzt kann ich die neue Kopie...

0 Replies

62 Views

Last post by Guest
07 Jan 2025, 12:49
Wie extrahiere ich ein Substring aus einer Spalte in einem Datenrahmen, das in der Spalte aus einem anderen Datenrahmen

Last post by Anonymous « 25 Apr 2025, 09:21
Posted in Python

by Anonymous » 25 Apr 2025, 09:21 » in Python

Ich habe eine Lösung aus meinem Problem gefunden, aber es ist eindeutig die dumm und ineffizienteste. Ich hatte gehofft, dass mir jemand bei einer richtigen Lösung helfen könnte.
Ich habe zwei...

0 Replies

67 Views

Last post by Anonymous
25 Apr 2025, 09:21
Wie extrahiere ich persönliche Informationen aus einem Foto eines Personalausweises aus Pakistan?

Last post by Guest « 13 Jan 2025, 10:54
Posted in Python

by Guest » 13 Jan 2025, 10:54 » in Python

Ich arbeite daran, Daten (wie CNIC-Nummer, Name, Geschlecht usw.) aus einem Bild zu extrahieren. Ich verwende EasyOCR zusammen mit OpenCV und anderen Python-Bibliotheken (wie Matplotlib, Scipy usw.),...

0 Replies

51 Views

Last post by Guest
13 Jan 2025, 10:54
ASSON.OMR: .OMR -Datei enthält nur eine Frage und zwei Optionen, obwohl sie mehr in .txt hinzufügen

Last post by Guest « 07 Feb 2025, 11:56
Posted in C#

by Guest » 07 Feb 2025, 11:56 » in C#

Ich verwende asspots.omr, um eine .OMR -Datei aus einer .txt -Vorlage zu generieren. Nach dem Generieren der .OMR -Datei enthält sie jedoch nur eine Frage mit nur zwei Optionen, obwohl meine .txt...

0 Replies

46 Views

Last post by Guest
07 Feb 2025, 11:56
Wie extrahiere ich den Quellcode aus einer *.jar -Datei auf einem Mac?

Last post by Anonymous « 01 Oct 2025, 12:11
Posted in Java

by Anonymous » 01 Oct 2025, 12:11 » in Java

Ich bin sehr verwirrt. Ich habe eine *.jar -Datei als Software heruntergeladen. Ich möchte also den Quellcode extrahieren, um ihn zu betrachten. Ich kann diese immer noch nicht im Terminal mit...

0 Replies

22 Views

Last post by Anonymous
01 Oct 2025, 12:11

Return to “Python”