Wie extrahieren Text aus PDF einschließlich Bildern und Text
Posted: 09 Apr 2025, 03:26
Ich werde Text aus mehreren PDF -Dateien extrahieren. Die PDF -Dateien enthalten Text und einige Bilder und sogar einige Seiten sind gescannte Seiten (ich nahm an, dass die gescannten Seiten wie Bilder sind). Ich habe die folgenden Befehle befolgt, um Text aus PDF -Dateien zu extrahieren.
Code: Select all
lst_all_text = []
for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text = ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()
lst_all_text.append(text)