Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs
Posted: 24 Feb 2025, 12:36
Ich verwende Python, um viele PDFs zu lesen, und sie sind ziemlich groß (einige haben 40 Seiten, andere 3000). Daher brauche ich eine gewisse Optimierung. Aus diesen Tabellen muss ich einen Datensatz übereinstimmen und aus jedem PDF eine Zeile extrahieren Lamareadmarkdown. Irgendwelche Vorschläge?
Hier ist mein Code < /p>
Ich denke, es nach Batch zu verarbeiten, aber es wird lebensfähig sein?
Hier ist mein Code < /p>
Code: Select all
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None