Seitenzahl in PYMUPDF Multiprocessing mit extract_text

Seitenzahl in PYMUPDF Multiprocessing mit extract_text ⇐ Python

1 post • Page 1 of 1

Anonymous

Seitenzahl in PYMUPDF Multiprocessing mit extract_text

Post by Anonymous » 27 Feb 2025, 10:26

In der Dokumentation von PYMUPDF heißt es also, dass PYMUPDF auf mehreren Threads nicht unterstützt wird.

    seg_size = int(num_pages / cpu + 1)
seg_from = idx * seg_size
seg_to = min(seg_from + seg_size, num_pages)
for i in range(seg_from, seg_to):  # work through our page segment
page = doc[i]
# page.get_text("rawdict")  # use any page-related type of work here, eg

< /code>
Warum nicht zuerst das Dokumenten laden-> Anzahl der Seiten abrufen und dann die Nummer an die Handler-Funktion geben? Anstatt Segmente wie im Beispielcode zu verwenden? Würde dies Probleme verursachen?def extract_text_from_page(args: Tuple[bytes, int]) -> Tuple[int, str]:
pdf_stream, page_num = args
# Open a new Document instance in this process
doc = pymupdf.open(stream=pdf_stream)
page = doc.load_page(page_num)  # Load the specific page
text = page.get_text(sort=True)  # Extract text with sorting
doc.close()  # Clean up
return (page_num, text)

1740648384

Anonymous

In der Dokumentation von PYMUPDF heißt es also, dass PYMUPDF auf mehreren Threads nicht unterstützt wird.[code]    seg_size = int(num_pages / cpu + 1)
seg_from = idx * seg_size
seg_to = min(seg_from + seg_size, num_pages)
for i in range(seg_from, seg_to):  # work through our page segment
page = doc[i]
# page.get_text("rawdict")  # use any page-related type of work here, eg

< /code>
Warum nicht zuerst das Dokumenten laden-> Anzahl der Seiten abrufen und dann die Nummer an die Handler-Funktion geben? Anstatt Segmente wie im Beispielcode zu verwenden? Würde dies Probleme verursachen?def extract_text_from_page(args: Tuple[bytes, int]) -> Tuple[int, str]:
pdf_stream, page_num = args
# Open a new Document instance in this process
doc = pymupdf.open(stream=pdf_stream)
page = doc.load_page(page_num)  # Load the specific page
text = page.get_text(sort=True)  # Extract text with sorting
doc.close()  # Clean up
return (page_num, text)
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie füge ich mit PyMuPDF einen Unicode-Text in eine PDF-Datei ein?

Last post by Anonymous « 22 Dec 2024, 03:57
Posted in Python

by Anonymous » 22 Dec 2024, 03:57 » in Python

Ich versuche, die PyMuPDF-Bibliothek zu verwenden, um einen Unicode-Text in eine PDF-Datei einzufügen. Ich habe den folgenden Code basierend auf dem Dokumentationsbeispiel:
import pymupdf

doc =...

0 Replies

12 Views

Last post by Anonymous
22 Dec 2024, 03:57
Installation von PYMUPDF in MSYS2

Last post by Anonymous « 12 Apr 2025, 02:44
Posted in Python

by Anonymous » 12 Apr 2025, 02:44 » in Python

Ein Beratung, bitte habe ich das Paket installiert: pymUpdf ( mingw-w64-x86_64-python-pymupdf ) In MSYS2 wurde der Ordner erstellt: Fitz_old im Pfad: C: \ msys64 \ mingw64 \ lib \ python3.12 \...

0 Replies

1 Views

Last post by Anonymous
12 Apr 2025, 02:44
Multiprocessing mit Tkinter-Fortschrittsbalken, minimales Beispiel

Last post by Guest « 14 Jan 2025, 13:50
Posted in Python

by Guest » 14 Jan 2025, 13:50 » in Python

Ich suche nach einer Möglichkeit, eine Multiprocessing-Aufgabe mit dem Tkinter-Fortschrittsbalken zu verfolgen. Das geht ganz einfach mit tqdm zur Anzeige im Terminal.
Anstelle von tqdm würde ich...

0 Replies

11 Views

Last post by Guest
14 Jan 2025, 13:50
Multiprocessing -Protokolle mit S3 -Log -Handler in Python

Last post by Anonymous « 20 Feb 2025, 23:03
Posted in Python

by Anonymous » 20 Feb 2025, 23:03 » in Python

Ich versuche Protokolle für einen Multiprocessing -Job in ECS S3 zu drücken. Im Folgenden finden Sie mein Code -Snippet:
logger.py
import logging
from S3_log_handler import S3LogHandler

def...

0 Replies

9 Views

Last post by Anonymous
20 Feb 2025, 23:03
Multiprocessing.process mit Spawn vs subprozess.popen

Last post by Anonymous « 04 Mar 2025, 10:00
Posted in Python

by Anonymous » 04 Mar 2025, 10:00 » in Python

Ich habe eine bindende C ++ Python -Bibliothek mit einer Klasse, die nur einmal pro Prozess initialisiert werden kann (unfaltlich, aufgrund des Legacy C ++ - Code).import multiprocessing
import...

0 Replies

8 Views

Last post by Anonymous
04 Mar 2025, 10:00

Return to “Python”