Kann mir jemand helfen, Text aus einer PDF-Datei mit einem bestimmten Bereich von Seitenzahlen zu extrahieren (z. B. Tex
Posted: 25 Jan 2025, 13:17
import PyPDF2
pdfFileObj = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.pdf', 'rb')
pdfReader = PyPDF2.PdfReader(pdfFileObj)
out_file = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.txt', 'a')
for pageObj in pdfReader.pages:
page_text = pageObj.extract_text()
print(page_text)
out_file.write(page_text)
out_file.close()
pdfFileObj.close()
< /code>
Ich bin in der Lage, Text aus dem gesamten Buch zu extrahieren. Vielmehr brauche ich Text nur aus ausgewählten Seitenzahlen oder ausgewählten Bereichen.
pdfFileObj = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.pdf', 'rb')
pdfReader = PyPDF2.PdfReader(pdfFileObj)
out_file = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.txt', 'a')
for pageObj in pdfReader.pages:
page_text = pageObj.extract_text()
print(page_text)
out_file.write(page_text)
out_file.close()
pdfFileObj.close()
< /code>
Ich bin in der Lage, Text aus dem gesamten Buch zu extrahieren. Vielmehr brauche ich Text nur aus ausgewählten Seitenzahlen oder ausgewählten Bereichen.