Wie extrahiere ich mehrseitige Antworten (einschließlich Text, Formeln) mit inkonsistenter Nummerierung von PDFs und erhPython

Python-Programme
Anonymous
 Wie extrahiere ich mehrseitige Antworten (einschließlich Text, Formeln) mit inkonsistenter Nummerierung von PDFs und erh

Post by Anonymous »

Ich arbeite an einer Aufgabe, die eine große Anzahl von PDF -Dateien umfasst. Diese PDFs enthalten Antworten auf Fragen aus verschiedenen Themen wie Mathematik, Physik, Chemie, Statistik usw. Ich muss jede vollständige Antwort als Bild oder eine Reihe von Bildern extrahieren. Sie enthalten häufig komplexe mathematische Formeln, Diagramme, Diagramme und andere Bilder.
Variable Struktur: Das Inhaltslayout variiert erheblich. Antworten können einfache Textabsätze sein, die in Tabellen strukturiert sind, oder eine Mischung. Es könnte 1, 1., Q1, Q1., Antwort 1 usw. sein. Die Nummerierung kann zu Beginn der Linie angezeigt werden, eingereicht, oder an anderer Stelle. (z. B. A, B, C; Aufzählungszeichen), die als Teil der Hauptantwort betrachtet werden sollten. Während es für einfachen Text einigermaßen gut funktioniert, erkennt oder extrahiert es die komplexen mathematischen Formeln und grafischen Elemente nicht korrekt und rendert sie häufig falsch oder fehlt sie. Von der gesamten Antwort, selbst wenn sie mehrere Seiten umfasst. (z. B. eine Antwort, die Teile von Seite 5 und Seite 6 abdeckt, sollte zu zwei separaten Bildscreenshots führen.) Ich suche nach Lösungen, die: < /p>

komplexe PDF-Layouts analysieren können. Antworten.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post