Wie extrahiere ich Tabellen aus einem PDF und konvertieren sie in strukturierte HTML (<table>, <tr>, <td>), während das Python

Python-Programme
Anonymous
 Wie extrahiere ich Tabellen aus einem PDF und konvertieren sie in strukturierte HTML (<table>, <tr>, <td>), während das

Post by Anonymous »

1] Originalseite des DOC1 enthält 4 Tabellen
1] Ausgabe .html Seite von doc1 nicht richtig erkennen, und manchmal extrahieren Text aus der Tabelle als einfacher Text

2] Originalseite des DOC2 enthalten Bilder in der Tabellenzelle < /p>
2] Ausgabe .html Seite von doc2, komplexe Tabellen mit eingebetteten Bildern, die nicht richtig verarbeiten und manchmal auch für einfache Tabellen auch Die Struktur wird in der .html -Datei < /p>
nicht richtig ordnungsgemäß. Ich extrahiere Inhalte aus PDF -Dateien und konvertiere sie in das HTML -Format, während die ursprüngliche Struktur und Formatierung beibehält. Ich benutze die Docling Library für diesen Zweck. /Code> Datei. Ich habe jedoch Probleme bei der Aufrechterhaltung von Tabellenstrukturen in der Ausgabe -HTML -Datei.

Was ich erwarte: >
[*] Tabellen aus der PDF mit der richtigen Zeile und der Spaltenstruktur extrahieren. , und html tags. Die ursprüngliche Formatierung, Ausrichtung und Zellinhalt, wie im PDF. /strong>

  • Die Tabellen werden nicht korrekt erkannt. Tische Daten werden in tags anstelle von ordnungsgemäßer Struktur. Tabelle. < /p>
    < /li>
    Komplexe Tabellen mit eingebetteten Bildern sind nicht richtig erhalten. < /p>
    < /li>

Verwendete Code: [/b]

Code: Select all

from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.datamodel.base_models import InputFormat
from docling_core.types.doc import ImageRefMode
from pathlib import Path
import logging

# Set up logging
logging.basicConfig(level=logging.INFO)
log = logging.getLogger(__name__)  # Corrected: _name_ -> __name__

# Configure image settings
IMAGE_RESOLUTION_SCALE = 2.0

# Path to your PDF file
source = Path(r"C:\Users\Downloads\Journal.pdf")
output_path = Path(r"C:\Users\Desktop\output20.html")

# Configure pipeline options for image handling
pipeline_options = PdfPipelineOptions()
pipeline_options.images_scale = IMAGE_RESOLUTION_SCALE
pipeline_options.generate_page_images = True
pipeline_options.generate_picture_images = True

# Create converter instance with image options
converter = DocumentConverter(
format_options={
InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
}
)

# Convert PDF to document
result = converter.convert(source)

# Save HTML with embedded images
result.document.save_as_html(output_path, image_mode=ImageRefMode.EMBEDDED)

log.info(f"HTML file with embedded images created at: {output_path}")
< /code>
  Was ich bisher ausprobiert habe: < /strong> < /h4>

  Überprüft das extrahierte HTML Ausgabe - In den Tischtieren fehlt oder fälschlicherweise angezeigt. . > < /li>
< /ol>
  Schlüsselherausforderungen: < /strong> < /h4>

  Tabellen sind in  
tags nicht erhalten.

Bilder in Tabellen sind falsch platziert (siehe oben/unten anstelle von Inneren Tabellenzellen).

< /ul>
Zusätzliche Beobachtung: < /strong> < /h4>

Der Inhaltsfluss in der Extrahierte HTML -Datei entspricht der ursprünglichen PDF -Datei **, aber die ** Tabellenstrukturen sind nicht korrekt formatiert. < /h4>
Wie kann ich Tabellen richtig aus einem PDF extrahieren und in strukturiertes HTML (, , ), während das ursprüngliche Layout und die Formatierung mithilfe der Docling -Bibliothek beibehalten wird?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post