Microsoft hat kürzlich MarkItDown veröffentlicht, aber die Dokumentation für die Python-API ist ziemlich kurz (oder ich habe sie nicht gefunden).
Irgendeine Hilfe, wie man die verschiedenen Funktionen herausfindet es bietet?
Im Moment ist die einzige Dokumentation (entweder auf GitHub oder PyPi):
Code: Select all
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("")
print(result.text_content)
Das funktioniert, aber es gibt einige Probleme, die nicht gut konvertiert werden – zum Beispiel (1) wenn das PDF mehrere Spalten auf jeder Seite hat (z. B. wissenschaftliche Arbeit), sind die Absätze nicht immer vorhanden korrekt konvertiert (nicht einmal ein Leerzeichen bei der Konvertierung zwischen dem letzten Zeichen des vorherigen und dem ersten des nächsten Zeichens); oder (2) spezifische Funktionen von/für Tabellen.
Ich würde zum Beispiel gerne wissen, wie ich diese (und andere ähnliche) Probleme lösen kann?
Die Eingabehilfe (MarkItDown) ist ebenfalls nicht umfangreich.