Ich arbeite an einer Aufgabe, bei der ich angegeben bin: < /p>
Eine Frage < /li>
Ein Bild (die Text, Tabellen oder visuelle Inhalte enthalten kann). /> Was ich ausprobiert habe: < /p>
Ich habe LLMs (OpenAI und Anthropic) mit strukturierter Ausgabe verwendet, um die Koordinaten zu erhalten. Die Ergebnisse waren jedoch nicht zuverlässig, die Genauigkeit betrug etwa 30%und die Begrenzungsboxen waren oft aus oder nicht in Beziehung.class BoundingBox(BaseModel):
top_left: List[int]
bottom_right: List[int]
content: str
confidence: float
class ImageAnalysisResult(BaseModel):
question: str
image_resolution: List[int]
bounding_boxes: List[BoundingBox]
overall_answer: str
response = client.responses.parse(
model=model,
temperature=0.0,
input=[
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": [
{
"type": "input_text",
"text": user_prompt,
},
{
"type": "input_image",
"image_url": f"data:image/png;base64,{base64_image}",
"detail": "high",
},
],
},
],
text_format=ImageAnalysisResult,
)
< /code>
Was ich suche: < /p>
Ein vorgezogenes Modell oder eine kombinierte Methode mit NLP + CV2 -Basis, die die Antwort innerhalb des Bildes unter Verwendung von Grenzbox -Koordinaten finden kann. /> Beispiel Ergebnis:
Beispielergebnis < /p>
Vorschläge für Modelle, Bibliotheken oder Workflows, die helfen können?>
Wie extrahiere ich das Begrenzungsfeld aus einem Bild, das die Antwort auf eine bestimmte Frage enthält? ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post