Apache PDFBox verwendet ca. 1,6 GB RAM, um ein einseitiges gescanntes PDF zu rendern – sollte ich Java optimieren oder zJava

Java-Forum
Anonymous
 Apache PDFBox verwendet ca. 1,6 GB RAM, um ein einseitiges gescanntes PDF zu rendern – sollte ich Java optimieren oder z

Post by Anonymous »

Ich habe einen Java-Dienst, der PDFs mit Apache PDFBox in Bilder konvertiert.

Bei den meisten textbasierten PDFs funktioniert das gut, aber bei einigen gescannten, nur Bild-PDFs wird der Speicherverbrauch extrem hoch.
Metriken

Problembeschreibung

  • PDF: 1 Seite, gescannt Rechnung
    />
Ich habe PyMuPDF (fitz) in Python getestet, das dasselbe Dokument mit 200–300 DPI mit zig MB rendert, nicht mit Hunderten oder GB.

Frage

Aus technischer und architektonischer Sicht:
  • Ist es sinnvoll, weiterhin Java + PDFBox zu verwenden und zu versuchen, die Speichernutzung weiter zu optimieren?
  • Oder ist Python + PyMuPDF grundsätzlich besser für gescannte/bildlastige PDFs geeignet?
  • Wenn es sinnvoll ist, einen Python-basierten Dokument-Rendering-Dienst einzuführen stattdessen
Ich bin nicht auf der Suche nach Meinungen zu Sprachpräferenzen, sondern nach praktischen Anleitungen basierend auf Speicherverhalten, PDF-Interna und Produktions-Workloads.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post