by Guest » 05 Jan 2025, 14:34
Ich versuche zu bestätigen, ob es möglich ist, eine Website rekursiv zu durchsuchen, einschließlich Website-Links (Unterseiten) und Dateien von auf den Unterseiten eingebetteten Links herunterzuladen. Als Basistest versuche ich festzustellen, wie das Vorhandensein von PDFs auf der folgenden Website (
https://file-examples.com/index.php/sam ... -download/) überprüft werden kann Sie können diese PDFs über die zugehörigen Links herunterladen.
Ich bin der Meinung, dass dies mit den Requests und BeautifulSoup-Bibliotheken in Python möglich sein sollte, kann es aber scheinbar nicht herausfinden. Hier ist der Code, den ich verwende, um zu versuchen, die PDFs lokal zu speichern:
Code: Select all
import shutil
from bs4 import BeautifulSoup
import requests
import os
from urllib.parse import urlparse
url = 'https://file-examples.com/index.php/sample-documents-download/sample-pdf-download/'
for page in range(2):
r = requests.get(url.format(page))
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.select("h3[class='sv-card-title']>a"):
r = requests.get(link.get("href"), stream=True)
r.raw.decode_content = True
with open(link.text+'.pdf', 'wb') as f:
shutil.copyfileobj(r.raw, f)
Ich versuche zu bestätigen, ob es möglich ist, eine Website rekursiv zu durchsuchen, einschließlich Website-Links (Unterseiten) und Dateien von auf den Unterseiten eingebetteten Links herunterzuladen. Als Basistest versuche ich festzustellen, wie das Vorhandensein von PDFs auf der folgenden Website (https://file-examples.com/index.php/sample-documents-download/sample-pdf-download/) überprüft werden kann Sie können diese PDFs über die zugehörigen Links herunterladen.
Ich bin der Meinung, dass dies mit den Requests und BeautifulSoup-Bibliotheken in Python möglich sein sollte, kann es aber scheinbar nicht herausfinden. Hier ist der Code, den ich verwende, um zu versuchen, die PDFs lokal zu speichern:
[code]import shutil
from bs4 import BeautifulSoup
import requests
import os
from urllib.parse import urlparse
url = 'https://file-examples.com/index.php/sample-documents-download/sample-pdf-download/'
for page in range(2):
r = requests.get(url.format(page))
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.select("h3[class='sv-card-title']>a"):
r = requests.get(link.get("href"), stream=True)
r.raw.decode_content = True
with open(link.text+'.pdf', 'wb') as f:
shutil.copyfileobj(r.raw, f)
[/code]