Ich arbeite mit mehreren PDF-Dateien (alle auf Englisch, größtenteils digital). Jedes PDF enthält mehrere Tabellen. Einige haben 5 Tabellen, andere haben 10–20 Tabellen, die auf verschiedene Seiten verteilt sind.
Ich brauche eine zuverlässige Methode in Python (oder einem anderen Tool), die automatisch:
- Jedes PDF öffnen kann
- ALLE Tabellen korrekt erkennen und extrahieren (einschließlich Tabellen, die sich über mehrere Seiten erstrecken)
- Speichern Sie jede Tabelle vorzugsweise in Excel eine Tabelle pro Blatt (oder eine Tabelle pro Datei)
Kennt jemand die beste Arbeitslösung für diese Art der Massentabellenextraktion? Ich suche etwas, das mit hoher Genauigkeit „einfach funktioniert“.