Auf dieser Website gibt es viele Karten, die in mehreren Bereichen der Website zugänglich sind. Ich versuche, die Site zu durchsuchen, um alle ihre Instanzen (in Form ihrer URL) basierend auf dem Titel zurückzugeben. Eine Karte mit dem Titel „AZ School Safety Program“ finden Sie beispielsweise unter:
https://lawforkids.org/officers und
https://lawforkids.org/educators. Mein Ziel ist es, dass Scrapy dies für mich erledigt, anstatt jede Instanz manuell zu finden.
Code: Select all
import scrapy
class PostsSpider(scrapy.Spider):
name = "card"
start_urls = [ 'https://lawforkids.org/',]
def parse(self, response):
for card in response.css('h5.card-title::text').re(r'AZ School Safety Program'):
yield{
'url': card.css('base::attr(href)').getall()
}
Abgesehen davon, dass ich nicht sicher bin, ob der URL-Selektor korrekt ist, führt mein Versuch, zu crawlen, zu Folgendem:
PostsSpider.parse-Rückruf ist nicht definiert. Wir freuen uns über jeden Einblick, vielen Dank!