Ich habe ein PDF -Dokument, das ich mit Pytesseract scannen möchte, aber die Seitenzahlen werden nicht erkannt. Die Seitenzahl wird auf keinem der Seiten erkannt. Die PDF ist mit Latex geschrieben. Ich habe verschiedene PSM gerieft, aber es hat nicht geholfen. Was kann ich tun, wenn Tesseract die Seitenzahlen erkennt? Die Funktion gibt ein Array von Wörtern (Zeichenfolgen) zurück. < /P>
Code: < /p>
def get_text_from_ocr(uploaded_file):
images = []
config = r"--psm 3" # 3: Fully automatic page segmentation, but no OSD. (Default)
# pdf to images
uploaded_file.seek(0)
pdf_bytes = uploaded_file.read()
doc = pymupdf.open(stream=pdf_bytes, filetype="pdf")
for page in doc:
pix = page.get_pixmap(dpi=300)
img = Image.open(BytesIO(pix.tobytes("png")))
images.append(img)
# Do OCR
text = [word for img in images for word in pytesseract.image_to_string(img, config=config).split()]
return text
< /code>
Ich habe auch einige Vorverarbeitungen ausprobiert, aber es hat auch nicht geholfen (in binär konvertieren und das Bild vergrößern). < /p>
Code: < /p>
def get_text_from_ocr(uploaded_file):
images = []
config = r"--psm 3" # 3: Fully automatic page segmentation, but no OSD. (Default)
# pdf to images
uploaded_file.seek(0)
pdf_bytes = uploaded_file.read()
doc = pymupdf.open(stream=pdf_bytes, filetype="pdf")
for page in doc:
pix = page.get_pixmap(dpi=300)
img = Image.open(BytesIO(pix.tobytes("png")))
# Preprocessing
gray = img.convert("L") # "L" = 8-bit grayscale
# Tune threshold value as needed (e.g., 180, 200)
binary = gray.point(lambda x: 0 if x < 180 else 255, '1') # '1' mode = black & white
scale = 2
resized = img.resize((img.width * scale, img.height * scale), Image.LANCZOS)
images.append(resized)
# Do OCR
text = [word for img in images for word in pytesseract.image_to_string(img, config=config).split()]
return text
< /code>
pdf:
PDF -Dokument < /p>
Seite 1 als Bild:
as -Bildes:
as -Bildes:
Tesseract findet keine Seitenzahlen ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post
-
-
Ein Docker kann nicht mit OpenCV und Tesseract für eine .NET 8.0 -App erstellen
by Anonymous » » in C# - 0 Replies
- 3 Views
-
Last post by Anonymous
-