Programmiererforum

Quote Anonymous

by Anonymous » 01 Jul 2025, 11:04

Ich arbeite an einer Aufgabe, bei der ich angegeben bin: < /p>

Eine Frage < /li>
Ein Bild (die Text, Tabellen oder visuelle Inhalte enthalten kann). /> Was ich ausprobiert habe: < /p>

Ich habe LLMs (OpenAI und Anthropic) mit strukturierter Ausgabe verwendet, um die Koordinaten zu erhalten. Die Ergebnisse waren jedoch nicht zuverlässig, die Genauigkeit betrug etwa 30%und die Begrenzungsboxen waren oft aus oder nicht in Beziehung.class BoundingBox(BaseModel):
top_left: List[int]
bottom_right: List[int]
content: str
confidence: float

class ImageAnalysisResult(BaseModel):
question: str
image_resolution: List[int]
bounding_boxes: List[BoundingBox]
overall_answer: str

response = client.responses.parse(
model=model,
temperature=0.0,
input=[
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": [
{
"type": "input_text",
"text": user_prompt,
},
{
"type": "input_image",
"image_url": f"data:image/png;base64,{base64_image}",
"detail": "high",
},
],
},
],
text_format=ImageAnalysisResult,
)
< /code>
Was ich suche: < /p>

Ein vorgezogenes Modell oder eine kombinierte Methode mit NLP + CV2 -Basis, die die Antwort innerhalb des Bildes unter Verwendung von Grenzbox -Koordinaten finden kann. /> Beispiel Ergebnis:
Beispielergebnis < /p>
Vorschläge für Modelle, Bibliotheken oder Workflows, die helfen können?>

Wie extrahiere ich das Begrenzungsfeld aus einem Bild, das die Antwort auf eine bestimmte Frage enthält?

Post a reply

Expand view Topic review: Wie extrahiere ich das Begrenzungsfeld aus einem Bild, das die Antwort auf eine bestimmte Frage enthält?