1] Ausgabe .html Seite von doc1 nicht richtig erkennen, und manchmal extrahieren Text aus der Tabelle als einfacher Text
2] Originalseite des DOC2 enthalten Bilder in der Tabellenzelle < /p>
2] Ausgabe .html Seite von doc2, komplexe Tabellen mit eingebetteten Bildern, die nicht richtig verarbeiten und manchmal auch für einfache Tabellen auch Die Struktur wird in der .html -Datei < /p>
nicht richtig ordnungsgemäß. Ich extrahiere Inhalte aus PDF -Dateien und konvertiere sie in das HTML -Format, während die ursprüngliche Struktur und Formatierung beibehält. Ich benutze die Docling Library für diesen Zweck. /Code> Datei. Ich habe jedoch Probleme bei der Aufrechterhaltung von Tabellenstrukturen in der Ausgabe -HTML -Datei.
Was ich erwarte: >
[*] Tabellen aus der PDF mit der richtigen Zeile und der Spaltenstruktur extrahieren. , und html tags. Die ursprüngliche Formatierung, Ausrichtung und Zellinhalt, wie im PDF. /strong>
- Die Tabellen werden nicht korrekt erkannt. Tische Daten werden in tags anstelle von ordnungsgemäßer Struktur. Tabelle. < /p>
< /li>
Komplexe Tabellen mit eingebetteten Bildern sind nicht richtig erhalten. < /p>
< /li>
Verwendete Code: [/b]
Code: Select all
from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.datamodel.base_models import InputFormat
from docling_core.types.doc import ImageRefMode
from pathlib import Path
import logging
# Set up logging
logging.basicConfig(level=logging.INFO)
log = logging.getLogger(__name__) # Corrected: _name_ -> __name__
# Configure image settings
IMAGE_RESOLUTION_SCALE = 2.0
# Path to your PDF file
source = Path(r"C:\Users\Downloads\Journal.pdf")
output_path = Path(r"C:\Users\Desktop\output20.html")
# Configure pipeline options for image handling
pipeline_options = PdfPipelineOptions()
pipeline_options.images_scale = IMAGE_RESOLUTION_SCALE
pipeline_options.generate_page_images = True
pipeline_options.generate_picture_images = True
# Create converter instance with image options
converter = DocumentConverter(
format_options={
InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
}
)
# Convert PDF to document
result = converter.convert(source)
# Save HTML with embedded images
result.document.save_as_html(output_path, image_mode=ImageRefMode.EMBEDDED)
log.info(f"HTML file with embedded images created at: {output_path}")
< /code>
Was ich bisher ausprobiert habe: < /strong> < /h4>
Überprüft das extrahierte HTML Ausgabe - In den Tischtieren fehlt oder fälschlicherweise angezeigt. . > < /li>
< /ol>
Schlüsselherausforderungen: < /strong> < /h4>
Tabellen sind in
Bilder in Tabellen sind falsch platziert (siehe oben/unten anstelle von Inneren Tabellenzellen).
< /ul>
Zusätzliche Beobachtung: < /strong> < /h4>
Der Inhaltsfluss in der Extrahierte HTML -Datei entspricht der ursprünglichen PDF -Datei **, aber die ** Tabellenstrukturen sind nicht korrekt formatiert. < /h4>
Wie kann ich Tabellen richtig aus einem PDF extrahieren und in strukturiertes HTML (
Code: Select all