Wie extrahieren Text aus PDF einschließlich Bildern und Text

Wie extrahieren Text aus PDF einschließlich Bildern und Text ⇐ Python

1 post • Page 1 of 1

Anonymous

Wie extrahieren Text aus PDF einschließlich Bildern und Text

Report
Quote

Post by Anonymous » 09 Apr 2025, 03:26

Ich werde Text aus mehreren PDF -Dateien extrahieren. Die PDF -Dateien enthalten Text und einige Bilder und sogar einige Seiten sind gescannte Seiten (ich nahm an, dass die gescannten Seiten wie Bilder sind). Ich habe die folgenden Befehle befolgt, um Text aus PDF -Dateien zu extrahieren.

Code: Select all

lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text =  ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)

1744161984

Anonymous

Ich werde Text aus mehreren PDF -Dateien extrahieren. Die PDF -Dateien enthalten Text und einige Bilder und sogar einige Seiten sind gescannte Seiten (ich nahm an, dass die gescannten Seiten wie Bilder sind). Ich habe die folgenden Befehle befolgt, um Text aus PDF -Dateien zu extrahieren.[code]lst_all_text = []

for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text =  ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()

lst_all_text.append(text)
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Extrahieren von Bildern aus einer PDF -Datei mit technischen Zeichnungen in Python

Last post by Anonymous « 26 Jun 2025, 23:18
Posted in Python

by Anonymous » 26 Jun 2025, 23:18 » in Python

Dies ist das erste Mal, dass ich das versuche,
Ich habe eine PDF -Datei, die im Grunde genommen eine 2D -technische Zeichnung ist, z. /> Ich muss den mit schwarzen Tinten bedeckten zentralen...

0 Replies

17 Views

Last post by Anonymous
26 Jun 2025, 23:18
Anfrage nach Skript oder Methode zum Extrahieren aller Informationen, einschließlich ISRC, aus dem Katalog eines Künstle

Last post by Guest « 28 Jan 2025, 07:03
Posted in Python

by Guest » 28 Jan 2025, 07:03 » in Python

Ich arbeite an einem Projekt, bei dem ich alle Informationen zu den Alben und Tracks eines Künstlers mit der Spotify -API extrahieren muss. Das Ziel ist es, alle Details, einschließlich des ISRC der...

0 Replies

29 Views

Last post by Guest
28 Jan 2025, 07:03
Wie kann ich aus mehreren Bildern ein PDF machen?

Last post by Guest « 10 Feb 2025, 08:22
Posted in Java

by Guest » 10 Feb 2025, 08:22 » in Java

Ich erstelle eine App, mit der Bilder auf meinen Firmenserver hochgeladen werden können
Ich arbeite jetzt daran, mehrere Bilder aufzunehmen und sie in PDF zu konvertieren. />
Mein Problem ist, dass...

0 Replies

23 Views

Last post by Guest
10 Feb 2025, 08:22
Wie kann ich aus mehreren Bildern ein PDF machen?

Last post by Guest « 10 Feb 2025, 08:22
Posted in Android

by Guest » 10 Feb 2025, 08:22 » in Android

Ich erstelle eine App, mit der Bilder auf meinen Firmenserver hochgeladen werden können
Ich arbeite jetzt daran, mehrere Bilder aufzunehmen und sie in PDF zu konvertieren. />
Mein Problem ist, dass...

0 Replies

26 Views

Last post by Guest
10 Feb 2025, 08:22
Kann mir jemand helfen, Text aus einer PDF-Datei mit einem bestimmten Bereich von Seitenzahlen zu extrahieren (z. B. Tex

Last post by Guest « 25 Jan 2025, 13:17
Posted in Python

by Guest » 25 Jan 2025, 13:17 » in Python

import PyPDF2
pdfFileObj = open('C:\\sem1\\691-project\\Dataset\\Maths\\A Spiral Workbook for Discrete Mathematics.pdf', 'rb')
pdfReader = PyPDF2.PdfReader(pdfFileObj)
out_file =...

0 Replies

53 Views

Last post by Guest
25 Jan 2025, 13:17

Return to “Python”