Programmiererforum

Posted: **09 Apr 2025, 03:26**

Ich werde Text aus mehreren PDF -Dateien extrahieren. Die PDF -Dateien enthalten Text und einige Bilder und sogar einige Seiten sind gescannte Seiten (ich nahm an, dass die gescannten Seiten wie Bilder sind). Ich habe die folgenden Befehle befolgt, um Text aus PDF -Dateien zu extrahieren.

Code: Select all

lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text =  ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)

Programmiererforum

Wie extrahieren Text aus PDF einschließlich Bildern und Text

Wie extrahieren Text aus PDF einschließlich Bildern und Text