Wie extrahieren Text aus PDF einschließlich Bildern und TextPython

Python-Programme
Anonymous
 Wie extrahieren Text aus PDF einschließlich Bildern und Text

Post by Anonymous »

Ich werde Text aus mehreren PDF -Dateien extrahieren. Die PDF -Dateien enthalten Text und einige Bilder und sogar einige Seiten sind gescannte Seiten (ich nahm an, dass die gescannten Seiten wie Bilder sind). Ich habe die folgenden Befehle befolgt, um Text aus PDF -Dateien zu extrahieren.

Code: Select all

lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text =  ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post