So extrahieren Sie die Seiteninhalte von Seiten mithilfe von DOCX-Dateien mithilfe der Docle-Bibliothek durch Erkennung Python

Python-Programme
Anonymous
 So extrahieren Sie die Seiteninhalte von Seiten mithilfe von DOCX-Dateien mithilfe der Docle-Bibliothek durch Erkennung

Post by Anonymous »

Ich habe die Seiten-HTML-Extraktion für PDF-Dateien mithilfe von Docling und PYPDF2 erfolgreich implementiert. Hier ist, was mein aktueller Code für PDFs tut: < /p>

[*] verwendet PYPDF2, um PDF in einzelne Seiten aufzuteilen < /li>
Konvertiert jede Seite in jede Seite auf HTML Verwenden Sie Docling's DocumentConverter < /li>
extrahiert HTML -Inhalt mit eingebetteten Bildern < /li>
Fügt Metadaten hinzu (Seite Nummer, Dokument -ID, Dateiname) < /li>
Speichert alles einer JSON -Struktur < /li>
< /ol>
Wichtiger Hinweis: Der Grund, den ich '' M Aufteilen von PDF in einzelnen Seiten zuerst darauf, dass die Funktionen von DOCLINGS von Save_as_html () und Export_to_html () auf vollständigen Dokumentobjekten funktionieren, nicht auf einzelnen Seiten. Um html-Inhalte von Seiten zu erhalten, muss ich temporäre einseitige PDFs erstellen und jede einzelne konvertieren.
"Seite": "Seite 1",
"Inhalt": "",
"metadata": {
"documentId": "uUid",
"Dateiname": "document.pdf",
"page_number": 1,
"Total_pages": Total
}
} < /p>
Jetzt muss ich die gleiche Funktionalität für Docx -Dateien implementieren. According Mir, DOCX -Dateien enthalten Elemente wie Header, Fußzeilen und Seitenpausen. Wir können diese Seitenpausen verwenden, um den Inhalt in den Inhalt aufzuteilen Seiten. < /p>
Ich verwende die Docling -Bibliothek für die Konvertierung (DOCX zu HTML), aber ich kann keine Seitenunterbrechungen in der DOCX -Datei identifizieren oder erkennen. Da die HTML -Konvertierung von Docling in vollständigen Dokumenten funktioniert, muss ich zuerst den DOCX -Inhalt basierend auf Seitenunterbrechungen teilen, ähnlich wie ich mit PDFs umgehen kann.
Fragen:

Wie kann ich Seitenunterbrechungen in einer DOCX -Datei mithilfe von Docling erkennen? So erstellen Sie separate Dokumentobjekte? /> < /ol>
Ich habe versucht, die Docling -Dokumentation durchzuschauen, aber keine Informationen über die Handhabungspausen in DOCX -Dateien finden. Anleitung wäre Geschätzt! Python-docx (falls erforderlich)

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post