Extrahieren Sie Tabellen aus PDF -Dateien

Extrahieren Sie Tabellen aus PDF -Dateien ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Extrahieren Sie Tabellen aus PDF -Dateien

Report
Quote

Post by Guest » 18 Feb 2025, 13:46

Ich recherchiere Forschungen zur P-Hacking, für die genaue Extrahieren von Tabellen aus veröffentlichten akademischen Papieren erforderlich sind. Ich habe zu diesem Zweck eine große Anzahl von PDF -Dateien heruntergeladen. Leider können Python -Pakete wie Fitz und Camelot die Tabellen nicht direkt aus diesen PDFs extrahieren. Als Problemumgehung habe ich ein YOLO-basierter Layout-Erkennungsmodell verwendet, um die Stellen jeder Tabelle zu identifizieren. Während dieser Ansatz es mir ermöglicht, den Textinhalt der Tabellen zu extrahieren, verliere ich die Strukturinformationen (z. B. die Ausrichtung von Zeilen und Spalten) und das von mir verwendete OCR -Modell ist nicht immer genau.
Können Sie bessere Methoden oder Tools vorschlagen, um den Extraktionsprozess zu verbessern und sicherzustellen, dass sowohl der Inhalt als auch die Struktur der Tabellen erhalten bleiben? < /p>
P.S. Ich entschuldige mich, aber aufgrund von Urheberrechtsbeschränkungen kann ich die PDF -Dateien, an denen ich arbeite, nicht hochladen. < /P>

Code: Select all

import json
import os

import fitz

def get_tables_loc(layout_json: dict) -> list:
pdf_info = layout_json['pdf_info']

layout = {page: pdf_info[page]['tables'] for page in range(len(pdf_info)) if
pdf_info[page]['tables']}
tables_loc = []

for page in layout.keys():
for table in layout[page]:
try:
table_body = [block for block in table['blocks'] if block['type'] == 'table_body']
if not table['bbox'] or not table_body:
continue
tables_loc.append((page, table['bbox']))
except Exception as e:
print(e)

return tables_loc

def extract_tables(path_paper):
path_layout = os.path.join(path_paper, "layout.json")
path_origin = os.path.join(path_paper, "origin.pdf")

with open(path_layout, "r", encoding="utf-8") as f:
layout_json = json.load(f)

tables_loc = get_tables_loc(layout_json)

doc = fitz.open(path_origin)
for page, table_loc in tables_loc:

rect = fitz.Rect(*table_loc)

table_finder = doc[page].find_tables(clip=rect)
if table_finder.tables:
table_result = table_finder.tables[0].to_pandas()
else:
table_text = doc[page].get_text("text", clip=rect)

1739882798

Guest

Ich recherchiere Forschungen zur P-Hacking, für die genaue Extrahieren von Tabellen aus veröffentlichten akademischen Papieren erforderlich sind. Ich habe zu diesem Zweck eine große Anzahl von PDF -Dateien heruntergeladen. Leider können Python -Pakete wie Fitz und Camelot die Tabellen nicht direkt aus diesen PDFs extrahieren. Als Problemumgehung habe ich ein YOLO-basierter Layout-Erkennungsmodell verwendet, um die Stellen jeder Tabelle zu identifizieren. Während dieser Ansatz es mir ermöglicht, den Textinhalt der Tabellen zu extrahieren, verliere ich die Strukturinformationen (z. B. die Ausrichtung von Zeilen und Spalten) und das von mir verwendete OCR -Modell ist nicht immer genau. 
Können Sie bessere Methoden oder Tools vorschlagen, um den Extraktionsprozess zu verbessern und sicherzustellen, dass sowohl der Inhalt als auch die Struktur der Tabellen erhalten bleiben? < /p>
P.S. Ich entschuldige mich, aber aufgrund von Urheberrechtsbeschränkungen kann ich die PDF -Dateien, an denen ich arbeite, nicht hochladen. < /P>
[code]import json
import os

import fitz

def get_tables_loc(layout_json: dict) -> list:
pdf_info = layout_json['pdf_info']

layout = {page: pdf_info[page]['tables'] for page in range(len(pdf_info)) if
pdf_info[page]['tables']}
tables_loc = []

for page in layout.keys():
for table in layout[page]:
try:
table_body = [block for block in table['blocks'] if block['type'] == 'table_body']
if not table['bbox'] or not table_body:
continue
tables_loc.append((page, table['bbox']))
except Exception as e:
print(e)

return tables_loc

def extract_tables(path_paper):
path_layout = os.path.join(path_paper, "layout.json")
path_origin = os.path.join(path_paper, "origin.pdf")

with open(path_layout, "r", encoding="utf-8") as f:
layout_json = json.load(f)

tables_loc = get_tables_loc(layout_json)

doc = fitz.open(path_origin)
for page, table_loc in tables_loc:

rect = fitz.Rect(*table_loc)

table_finder = doc[page].find_tables(clip=rect)
if table_finder.tables:
table_result = table_finder.tables[0].to_pandas()
else:
table_text = doc[page].get_text("text", clip=rect)
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Extrahieren von Tabellen aus einer PDF-Datei mit leeren Zellen und ohne sichtbare Kanten

Last post by Anonymous « 22 Dec 2024, 03:50
Posted in Python

by Anonymous » 22 Dec 2024, 03:50 » in Python

Ich verwende pdfplumber, um Daten aus der folgenden PDF-Seite zu extrahieren:
https:// i.sstatic.net/YjVmA3hx.png

import pdfplumber

pdf_file = 'D:/Input/Book1.pdf'
pdf =...

0 Replies

19 Views

Last post by Anonymous
22 Dec 2024, 03:50
So extrahieren Sie Tabellen aus Websites in Python

Last post by Anonymous « 10 May 2025, 21:02
Posted in Python

by Anonymous » 10 May 2025, 21:02 » in Python

hier,

ist eine Tabelle. Mein Ziel ist es, die Tabelle zu extrahieren und in einer CSV -Datei zu speichern. Ich habe einen Code geschrieben:
import urllib
import os

web = urllib.urlopen(

s =...

0 Replies

4 Views

Last post by Anonymous
10 May 2025, 21:02
Wie extrahiere ich Tabellen aus einem PDF und konvertieren sie in strukturierte HTML (<table>, <tr>, <td>), während das

Last post by Anonymous « 11 Feb 2025, 14:21
Posted in Python

by Anonymous » 11 Feb 2025, 14:21 » in Python

1] Originalseite des DOC1 enthält 4 Tabellen
1] Ausgabe .html Seite von doc1 nicht richtig erkennen, und manchmal extrahieren Text aus der Tabelle als einfacher Text

2] Originalseite des DOC2...

0 Replies

32 Views

Last post by Anonymous
11 Feb 2025, 14:21
Extrahieren Sie XFA -Formfelder aus PDF

Last post by Anonymous « 08 Aug 2025, 03:32
Posted in Python

by Anonymous » 08 Aug 2025, 03:32 » in Python

Einige der Adobe XFA -Formularfelder fehlen, wenn die /pageItemuidtolocationDatamap aus einigen PDF -Dateien extrahiert wird, wie auf dem Bild unten gezeigt, wobei nur mit schwarze Punkte für die...

0 Replies

1 Views

Last post by Anonymous
08 Aug 2025, 03:32
PDF-Tabellen mit PHP in CSV analysieren

Last post by Guest « 19 Jan 2025, 19:58
Posted in Php

by Guest » 19 Jan 2025, 19:58 » in Php

Ich muss eine PDF-Datei mit Tabellen in CSV konvertieren, also habe ich „PDFPARSER“ verwendet, um den gesamten Text zu analysieren, und dann mit pregmatch_all die Muster jeder Tabelle durchsucht,...

0 Replies

15 Views

Last post by Guest
19 Jan 2025, 19:58

Return to “Python”