Ich verwende Python, um viele PDFs zu lesen, und sie sind ziemlich groß (einige haben 40 Seiten, andere 3000). Daher brauche ich eine gewisse Optimierung. Aus diesen Tabellen muss ich einen Datensatz übereinstimmen und aus jedem PDF eine Zeile extrahieren Lamareadmarkdown. Irgendwelche Vorschläge?
Hier ist mein Code < /p>
Code: Select all
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None
Ich denke, es nach Batch zu verarbeiten, aber es wird lebensfähig sein?