Rekursive Suche nach Dateien auf einer Website (Python)

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Rekursive Suche nach Dateien auf einer Website (Python)

by Guest » 05 Jan 2025, 14:34

Ich versuche zu bestätigen, ob es möglich ist, eine Website rekursiv zu durchsuchen, einschließlich Website-Links (Unterseiten) und Dateien von auf den Unterseiten eingebetteten Links herunterzuladen. Als Basistest versuche ich festzustellen, wie das Vorhandensein von PDFs auf der folgenden Website (https://file-examples.com/index.php/sam ... -download/) überprüft werden kann Sie können diese PDFs über die zugehörigen Links herunterladen.
Ich bin der Meinung, dass dies mit den Requests und BeautifulSoup-Bibliotheken in Python möglich sein sollte, kann es aber scheinbar nicht herausfinden. Hier ist der Code, den ich verwende, um zu versuchen, die PDFs lokal zu speichern:

Code: Select all

import shutil
from bs4 import BeautifulSoup
import requests
import os
from urllib.parse import urlparse

url = 'https://file-examples.com/index.php/sample-documents-download/sample-pdf-download/'
for page in range(2):
r = requests.get(url.format(page))
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.select("h3[class='sv-card-title']>a"):
r = requests.get(link.get("href"), stream=True)
r.raw.decode_content = True
with open(link.text+'.pdf', 'wb') as f:
shutil.copyfileobj(r.raw, f)

Top