Extrahieren von Tabellen aus einer PDF-Datei mit leeren Zellen und ohne sichtbare Kanten

Extrahieren von Tabellen aus einer PDF-Datei mit leeren Zellen und ohne sichtbare Kanten ⇐ Python

1 post • Page 1 of 1

Anonymous

Extrahieren von Tabellen aus einer PDF-Datei mit leeren Zellen und ohne sichtbare Kanten

Report
Quote

Post by Anonymous » 22 Dec 2024, 03:50

Ich verwende pdfplumber, um Daten aus der folgenden PDF-Seite zu extrahieren:
[img]https:// i.sstatic.net/YjVmA3hx.png[/img]

import pdfplumber

pdf_file = 'D:/Input/Book1.pdf'
pdf = pdfplumber.open(pdf_file)

page = pdf.pages[0]
text = page.extract_text()
table = page.extract_tables()

for line in text.split("\n"):
print(line)

Wenn ich page.extract_tables() verwende, erhalte ich nur die Zeilenköpfe, nicht die zugehörigen Daten in der Tabelle.
Da extract_tables() nicht funktioniert, verwende ich page.extract_text(), um es Zeile für Zeile zu durchlaufen. Allerdings scheint extract_text() beim Lesen einer Zeile leere Zellen in den Tabellendaten wegzulassen.
Die folgenden Daten wurden bei Verwendung von extract_text() extrahiert:
Weekly test report with multiple lines of hedder of the each page of report
col1 col2 col3 Start End Col Group
Name Name Name Date Date Col5 Col6 Col7 Currency
123 ABC 26/8/2024 26/8/2024 1000 20000 26/8/2024 USD
456 DEF New 26/8/2024 2000 15000 27/8/2024 INR
789 GES DDD 26/8/2024 26/8/2023 4000 20/4/2024 AUD

Ich möchte einen Datenrahmen mit den Tabellendaten aus dem PDF erstellen.

1734835852

Anonymous

Ich verwende pdfplumber, um Daten aus der folgenden PDF-Seite zu extrahieren:
[img]https:// i.sstatic.net/YjVmA3hx.png[/img]

import pdfplumber

pdf_file = 'D:/Input/Book1.pdf'
pdf = pdfplumber.open(pdf_file)

page = pdf.pages[0]
text = page.extract_text()
table  = page.extract_tables()

for line in text.split("\n"):
print(line)

Wenn ich page.extract_tables() verwende, erhalte ich nur die Zeilenköpfe, nicht die zugehörigen Daten in der Tabelle.
Da extract_tables() nicht funktioniert, verwende ich page.extract_text(), um es Zeile für Zeile zu durchlaufen. Allerdings scheint extract_text() beim Lesen einer Zeile leere Zellen in den Tabellendaten wegzulassen.
Die folgenden Daten wurden bei Verwendung von extract_text() extrahiert:
Weekly test report with multiple lines of hedder of the each page of report
col1 col2 col3 Start End Col Group
Name Name Name Date Date Col5 Col6 Col7 Currency
123 ABC 26/8/2024 26/8/2024 1000 20000 26/8/2024 USD
456 DEF New 26/8/2024 2000 15000 27/8/2024 INR
789 GES DDD 26/8/2024 26/8/2023 4000 20/4/2024 AUD

Ich möchte einen Datenrahmen mit den Tabellendaten aus dem PDF erstellen.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Sichtbare graue Kanten in HTML-Canvas

Last post by Anonymous « 01 Mar 2025, 16:17
Posted in JavaScript

by Anonymous » 01 Mar 2025, 16:17 » in JavaScript

Hallo, ich versuche, eine UVMAP für ein Modell zu exportieren, und ich fülle Dreiecke (Maschen) mit Farbe, es funktioniert, aber ich sehe immer graue Maschenlinien. Ich habe versucht, Linien zu...

0 Replies

38 Views

Last post by Anonymous
01 Mar 2025, 16:17
Extrahieren Sie Tabellen aus PDF -Dateien

Last post by Guest « 18 Feb 2025, 13:46
Posted in Python

by Guest » 18 Feb 2025, 13:46 » in Python

Ich recherchiere Forschungen zur P-Hacking, für die genaue Extrahieren von Tabellen aus veröffentlichten akademischen Papieren erforderlich sind. Ich habe zu diesem Zweck eine große Anzahl von PDF...

0 Replies

23 Views

Last post by Guest
18 Feb 2025, 13:46
Kann mir jemand helfen, Text aus einer PDF-Datei mit einem bestimmten Bereich von Seitenzahlen zu extrahieren (z. B. Tex

Last post by Guest « 25 Jan 2025, 13:17
Posted in Python

by Guest » 25 Jan 2025, 13:17 » in Python

import PyPDF2
pdfFileObj = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.pdf', 'rb')
pdfReader = PyPDF2.PdfReader(pdfFileObj)
out_file =...

0 Replies

72 Views

Last post by Guest
25 Jan 2025, 13:17
Extrahieren von Bildern aus einer PDF -Datei mit technischen Zeichnungen in Python

Last post by Anonymous « 26 Jun 2025, 23:18
Posted in Python

by Anonymous » 26 Jun 2025, 23:18 » in Python

Dies ist das erste Mal, dass ich das versuche,
Ich habe eine PDF -Datei, die im Grunde genommen eine 2D -technische Zeichnung ist, z. /> Ich muss den mit schwarzen Tinten bedeckten zentralen...

0 Replies

35 Views

Last post by Anonymous
26 Jun 2025, 23:18
Wie zähle ich sichtbare Sehenswürdigkeiten mit MediaPipe Face Mesh und ZED2 -Kamera in Python?

Last post by Anonymous « 11 May 2025, 21:27
Posted in Python

by Anonymous » 11 May 2025, 21:27 » in Python

Ich arbeite an einem Projekt, bei dem eine ZED2 -Kamera mit dem MediaPipe Face Mesh -Modell verwendet wird, um die Gesichtsmarke im Gesicht zu erkennen und zu visualisieren. Ziel ist es, die Anzahl...

0 Replies

41 Views

Last post by Anonymous
11 May 2025, 21:27

Return to “Python”