Wie kann ich mit OCR effizient Text aus einem Verzeichnis von PDF-Dateien extrahieren? - Programmiererforum

Wie kann ich mit OCR effizient Text aus einem Verzeichnis von PDF-Dateien extrahieren? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie kann ich mit OCR effizient Text aus einem Verzeichnis von PDF-Dateien extrahieren?

Report
Quote

Post by Anonymous » 03 Dec 2025, 05:18

Ich habe ein großes Verzeichnis mit PDF-Dateien (Bilder). Wie kann ich den Text effizient aus allen Dateien im Verzeichnis extrahieren? Bisher habe ich Folgendes versucht:

Code: Select all

import multiprocessing
import textract

def extract_txt(file_path):
text = textract.process(file_path, method='tesseract')

p = multiprocessing.Pool(2)
file_path = ['/Users/user/Desktop/sample.pdf']
list(p.map(extract_txt, file_path))

Allerdings funktioniert es nicht ... es nimmt viel Zeit in Anspruch (ich habe einige Dokumente mit 600 Seiten). Außerdem: a) Ich weiß nicht, wie ich den Teil der Verzeichnistransformation effizient handhaben soll. b) Ich möchte ein Seitentrennzeichen hinzufügen, sagen wir: ... Seiteninhalt ... , aber ich habe keine Ahnung, wie das geht.

Wie kann ich also die Funktion extract_txt auf alle Elemente eines Verzeichnisses anwenden, die mit .pdf enden, und dieselben Dateien in einem anderen Verzeichnis zurückgeben, aber im .txt-Format, und Einen Seitentrenner mit OCR-Textextraktion hinzufügen?.

Außerdem war ich neugierig auf die Verwendung von Google Docs für diese Aufgabe. Ist es möglich, Google Docs programmgesteuert zu verwenden, um das oben genannte Textextraktionsproblem zu lösen?.

UPDATE

Bezüglich des Problems „Hinzufügen eines Seitentrenners“ (

Code: Select all

 ... page content ...

) Nachdem ich Roland Smiths Antwort gelesen hatte, versuchte ich:

Code: Select all

from PyPDF2 import PdfFileWriter, PdfFileReader
import textract

def extract_text(pdf_file):
inputpdf = PdfFileReader(open(pdf_file, "rb"))
for i in range(inputpdf.numPages):
w = PdfFileWriter()
w.addPage(inputpdf.getPage(i))
outfname = 'page{:03d}.pdf'.format(i)
with open(outfname, 'wb') as outfile:  # I presume you need `wb`.
w.write(outfile)
print('\n\n')
text = textract.process(str(outfname), method='tesseract')
os.remove(outfname)  # clean up.
print(str(text, 'utf8'))
print('\n\n')

extract_text('/Users/user/Downloads/ImageOnly.pdf')

Allerdings habe ich immer noch Probleme mit dem print()-Teil, da es sinnvoller wäre, die gesamte Ausgabe in einer Datei zu speichern, anstatt sie auszudrucken. Daher habe ich versucht, die Ausgabe in eine Datei umzuleiten:

Code: Select all

sys.stdout=open("test.txt","w")
print('\n\n')
sys.stdout.close()
text = textract.process(str(outfname), method='tesseract')
os.remove(outfname)  # clean up.
sys.stdout=open("test.txt","w")
print(str(text, 'utf8'))
sys.stdout.close()
sys.stdout=open("test.txt","w")
print('\n\n')
sys.stdout.close()

Irgendeine Idee, wie man den Trick zum Extrahieren/Trennen von Seiten umsetzt und alles in einer Datei speichert?...

1764735482

Anonymous

Ich habe ein großes Verzeichnis mit PDF-Dateien ([b]Bilder[/b]). Wie kann ich den Text effizient aus allen Dateien im Verzeichnis extrahieren? Bisher habe ich Folgendes versucht:

[code]import multiprocessing
import textract

def extract_txt(file_path):
text = textract.process(file_path, method='tesseract')

p = multiprocessing.Pool(2)
file_path = ['/Users/user/Desktop/sample.pdf']
list(p.map(extract_txt, file_path))
[/code]

Allerdings funktioniert es nicht ... es nimmt viel Zeit in Anspruch (ich habe einige Dokumente mit 600 Seiten). Außerdem: a) Ich weiß nicht, wie ich den Teil der Verzeichnistransformation effizient handhaben soll. b) [url=viewtopic.php?t=30561]Ich möchte[/url] ein Seitentrennzeichen hinzufügen, sagen wir:  ... Seiteninhalt ... , aber ich habe keine Ahnung, wie das geht.

Wie kann ich also die Funktion extract_txt auf alle Elemente eines Verzeichnisses anwenden, die mit .pdf enden, und dieselben Dateien in einem anderen Verzeichnis zurückgeben, aber im .txt-Format, und Einen Seitentrenner mit OCR-Textextraktion hinzufügen?.

Außerdem war ich neugierig auf die Verwendung von Google Docs für diese Aufgabe. Ist es möglich, Google Docs programmgesteuert zu verwenden, um das oben genannte Textextraktionsproblem zu lösen?.

[b]UPDATE[/b]

Bezüglich des Problems „Hinzufügen eines Seitentrenners“ ([code] ... page content ... [/code]) Nachdem ich Roland Smiths Antwort gelesen hatte, versuchte ich:

[code]from PyPDF2 import PdfFileWriter, PdfFileReader
import textract

def extract_text(pdf_file):
inputpdf = PdfFileReader(open(pdf_file, "rb"))
for i in range(inputpdf.numPages):
w = PdfFileWriter()
w.addPage(inputpdf.getPage(i))
outfname = 'page{:03d}.pdf'.format(i)
with open(outfname, 'wb') as outfile:  # I presume you need `wb`.
w.write(outfile)
print('\n\n')
text = textract.process(str(outfname), method='tesseract')
os.remove(outfname)  # clean up.
print(str(text, 'utf8'))
print('\n\n')

extract_text('/Users/user/Downloads/ImageOnly.pdf')
[/code]

Allerdings habe ich immer noch Probleme mit dem print()-Teil, da es sinnvoller wäre, die gesamte Ausgabe in einer Datei zu speichern, anstatt sie auszudrucken. Daher habe ich versucht, die Ausgabe in eine Datei umzuleiten:

[code]sys.stdout=open("test.txt","w")
print('\n\n')
sys.stdout.close()
text = textract.process(str(outfname), method='tesseract')
os.remove(outfname)  # clean up.
sys.stdout=open("test.txt","w")
print(str(text, 'utf8'))
sys.stdout.close()
sys.stdout=open("test.txt","w")
print('\n\n')
sys.stdout.close()
[/code]

Irgendeine Idee, wie man den Trick zum Extrahieren/Trennen von Seiten umsetzt und alles in einer Datei speichert?...

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie extrahieren Text aus PDF einschließlich Bildern und Text

Last post by Anonymous « 09 Apr 2025, 03:26
Posted in Python

by Anonymous » 09 Apr 2025, 03:26 » in Python

Ich werde Text aus mehreren PDF -Dateien extrahieren. Die PDF -Dateien enthalten Text und einige Bilder und sogar einige Seiten sind gescannte Seiten (ich nahm an, dass die gescannten Seiten wie...

0 Replies

21 Views

Last post by Anonymous
09 Apr 2025, 03:26
Kann mir jemand helfen, Text aus einer PDF-Datei mit einem bestimmten Bereich von Seitenzahlen zu extrahieren (z. B. Tex

Last post by Guest « 25 Jan 2025, 13:17
Posted in Python

by Guest » 25 Jan 2025, 13:17 » in Python

import PyPDF2
pdfFileObj = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.pdf', 'rb')
pdfReader = PyPDF2.PdfReader(pdfFileObj)
out_file =...

0 Replies

55 Views

Last post by Guest
25 Jan 2025, 13:17
Wie gehe ich mit OCR um, wenn gescannte PDF -Seiten aufgrund eines schlechten Scans oder einer Dachrinne Teile der vorhe

Last post by Anonymous « 02 Jun 2025, 17:29
Posted in Python

by Anonymous » 02 Jun 2025, 17:29 » in Python

Ich veriere mich mit einer großen Stapel von gescanntem Buch PDFs mit einer OCR -Pipeline (Mineru, Paddleocal usw.). Dies ist wahrscheinlich auf Buchrinne, schlechte Ausrichtung oder Seitenaufteilung...

0 Replies

13 Views

Last post by Anonymous
02 Jun 2025, 17:29
Text nach Zeile aus PDF mit iTextSharp C# extrahieren

Last post by Anonymous « 20 May 2025, 13:06
Posted in C#

by Anonymous » 20 May 2025, 13:06 » in C#

Ich muss einige Analysen ausführen. Meine Extraktionsdaten aus einem PDF -Dokument.

Gibt es eine Möglichkeit, den Text nach Zeile zu erhalten, damit ich sie in einem Array speichern kann? Damit...

0 Replies

14 Views

Last post by Anonymous
20 May 2025, 13:06
Extrahieren Sie Tabellen aus PDF -Dateien

Last post by Guest « 18 Feb 2025, 13:46
Posted in Python

by Guest » 18 Feb 2025, 13:46 » in Python

Ich recherchiere Forschungen zur P-Hacking, für die genaue Extrahieren von Tabellen aus veröffentlichten akademischen Papieren erforderlich sind. Ich habe zu diesem Zweck eine große Anzahl von PDF...

0 Replies

15 Views

Last post by Guest
18 Feb 2025, 13:46

Return to “Python”