Ich erhalte den Status 202 aus der Antwort einiger Spider-Anfragen, daher ist der Seiteninhalt noch nicht verfügbar.
Wie gehe ich mit diesen Statuscodes richtig um, z. B. „Warten Sie, bis die Seite vollständig geladen ist“?
Ich habe sowohl get_retry_request von Scrapys Downloadermiddleware als auch den Aufruf von Reactor später gesehen bzw. angeschaut mit einem Lambda, um zu versuchen, Wiederholungsversuche mit Verzögerung zu verarbeiten, aber bisher ohne Erfolg...
(z. B.
Code: Select all
yield scrapy.downloadermiddlewares.retry.get_retry_request(
request=response.request, spider=self, reason='202 Accepted - retrying after delay', max_retry_times=self.max_retries)
Code: Select all
reactor.callLater(self.retry_delay,
lambda: self.crawler.engine.crawl(
scrapy.Request(
url=response.url,
callback=self.parse,
meta={'location_name': response.meta.get('location_name', ''),'retries': retries + 1})))
Vielen Dank im Voraus für jede Unterstützung!
Mobile version