Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFsPython

Python-Programme
Anonymous
 Wie extrahiert die genaue Übereinstimmung von tabellarischen riesigen tabellarischen PDFs

Post by Anonymous »

Ich verwende Python, um viele PDFs zu lesen, und sie sind ziemlich groß (einige haben 40 Seiten, andere 3000). Daher brauche ich eine gewisse Optimierung. Aus diesen Tabellen muss ich einen Datensatz übereinstimmen und aus jedem PDF eine Zeile extrahieren Lamareadmarkdown. Irgendwelche Vorschläge?
Hier ist mein Code < /p>

Code: Select all

    with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None
Ich denke, es nach Batch zu verarbeiten, aber es wird lebensfähig sein?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post