Ich verwende pdfplumber, um Daten aus der folgenden PDF-Seite zu extrahieren:
[img]https:// i.sstatic.net/YjVmA3hx.png[/img]
import pdfplumber
pdf_file = 'D:/Input/Book1.pdf'
pdf = pdfplumber.open(pdf_file)
page = pdf.pages[0]
text = page.extract_text()
table = page.extract_tables()
for line in text.split("\n"):
print(line)
Wenn ich page.extract_tables() verwende, erhalte ich nur die Zeilenköpfe, nicht die zugehörigen Daten in der Tabelle.
Da extract_tables() nicht funktioniert, verwende ich page.extract_text(), um es Zeile für Zeile zu durchlaufen. Allerdings scheint extract_text() beim Lesen einer Zeile leere Zellen in den Tabellendaten wegzulassen.
Die folgenden Daten wurden bei Verwendung von extract_text() extrahiert:
Weekly test report with multiple lines of hedder of the each page of report
col1 col2 col3 Start End Col Group
Name Name Name Date Date Col5 Col6 Col7 Currency
123 ABC 26/8/2024 26/8/2024 1000 20000 26/8/2024 USD
456 DEF New 26/8/2024 2000 15000 27/8/2024 INR
789 GES DDD 26/8/2024 26/8/2023 4000 20/4/2024 AUD
Ich möchte einen Datenrahmen mit den Tabellendaten aus dem PDF erstellen.
Extrahieren von Tabellen aus einer PDF-Datei mit leeren Zellen und ohne sichtbare Kanten ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post