Programmiererforum

Posted: **24 Feb 2025, 12:36**

Ich verwende Python, um viele PDFs zu lesen, und sie sind ziemlich groß (einige haben 40 Seiten, andere 3000). Daher brauche ich eine gewisse Optimierung. Aus diesen Tabellen muss ich einen Datensatz übereinstimmen und aus jedem PDF eine Zeile extrahieren Lamareadmarkdown. Irgendwelche Vorschläge?
Hier ist mein Code < /p>

Code: Select all

    with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None

Ich denke, es nach Batch zu verarbeiten, aber es wird lebensfähig sein?

Programmiererforum

Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs

Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs