Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs

Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs

Post by Anonymous » 24 Feb 2025, 12:36

Ich verwende Python, um viele PDFs zu lesen, und sie sind ziemlich groß (einige haben 40 Seiten, andere 3000). Daher brauche ich eine gewisse Optimierung. Aus diesen Tabellen muss ich einen Datensatz übereinstimmen und aus jedem PDF eine Zeile extrahieren Lamareadmarkdown. Irgendwelche Vorschläge?
Hier ist mein Code < /p>

Code: Select all

    with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None

Ich denke, es nach Batch zu verarbeiten, aber es wird lebensfähig sein?

1740396972

Anonymous

Ich verwende Python, um viele PDFs zu lesen, und sie sind ziemlich groß (einige haben 40 Seiten, andere 3000). Daher brauche ich eine gewisse Optimierung. Aus diesen Tabellen muss ich einen Datensatz übereinstimmen und aus jedem PDF eine Zeile extrahieren Lamareadmarkdown. Irgendwelche Vorschläge?
Hier ist mein Code < /p>
[code]    with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None
[/code]
Ich denke, es nach Batch zu verarbeiten, aber es wird lebensfähig sein?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Regex extrahiert CNIC-Details nicht korrekt aus Text, der über EasyOCR in Python extrahiert wurde

Last post by Guest « 24 Dec 2024, 11:53
Posted in Python

by Guest » 24 Dec 2024, 11:53 » in Python

Ich versuche, mit EasyOCR und Regex in Python persönliche Daten (wie Name, Geschlecht, Geburtsdatum usw.) aus einem Bild eines CNIC (Computerized National Identity Card) zu extrahieren.

Ich...

0 Replies

20 Views

Last post by Guest
24 Dec 2024, 11:53
Regex extrahiert CNIC-Details nicht korrekt aus Text, der über EasyOCR in Python extrahiert wurde

Last post by Guest « 03 Jan 2025, 11:28
Posted in Python

by Guest » 03 Jan 2025, 11:28 » in Python

Ich versuche, mit EasyOCR und Regex in Python persönliche Daten (wie Name, Geschlecht, Geburtsdatum usw.) aus einem Bild eines CNIC (Computerized National Identity Card) zu extrahieren.

Ich...

0 Replies

23 Views

Last post by Guest
03 Jan 2025, 11:28
Widget zum Anzeigen von tabellarischen Daten

Last post by Anonymous « 11 Apr 2025, 10:24
Posted in C++

by Anonymous » 11 Apr 2025, 10:24 » in C++

Ist es möglich, ein Widget in Winui3/C ++ zu erstellen, das wie eine Tabelle aussehen würde, wie es in Datei -Explorer geschieht? Damit es Header geben würde, indem Sie auf die Daten nach Spalten...

0 Replies

6 Views

Last post by Anonymous
11 Apr 2025, 10:24
Wie extrahiere ich mehrseitige Antworten (einschließlich Text, Formeln) mit inkonsistenter Nummerierung von PDFs und erh

Last post by Anonymous « 09 Apr 2025, 03:24
Posted in Python

by Anonymous » 09 Apr 2025, 03:24 » in Python

Ich arbeite an einer Aufgabe, die eine große Anzahl von PDF -Dateien umfasst. Diese PDFs enthalten Antworten auf Fragen aus verschiedenen Themen wie Mathematik, Physik, Chemie, Statistik usw. Ich...

0 Replies

7 Views

Last post by Anonymous
09 Apr 2025, 03:24
Text in Tabellenspalten wird in mit html2canvas und jsPDF generierten PDFs abgeschnitten – Wie aktiviere ich den Zeilenu

Last post by Guest « 03 Jan 2025, 04:02
Posted in CSS

by Guest » 03 Jan 2025, 04:02 » in CSS

Ich verwende html2canvas und jsPDF für die PDF-Generierung. Das heruntergeladene PDF sollte wie die Vorschau des Dokuments aussehen, aber ich habe Probleme mit dem Tabellenlayout. Insbesondere wird...

0 Replies

29 Views

Last post by Guest
03 Jan 2025, 04:02

Return to “Python”