Scrapy-Handle-Status 202Python

Python-Programme
Anonymous
 Scrapy-Handle-Status 202

Post by Anonymous »

Ich bin ziemlich neu im Web-Scraping und insbesondere in der Verwendung von Scrapys Spidern, Pipelines...
Ich erhalte den Status 202 aus der Antwort einiger Spider-Anfragen, daher ist der Seiteninhalt noch nicht verfügbar.
Wie gehe ich mit diesen Statuscodes richtig um, z. B. „Warten Sie, bis die Seite vollständig geladen ist“?
Ich habe sowohl get_retry_request von Scrapys Downloadermiddleware als auch den Aufruf von Reactor später gesehen bzw. angeschaut mit einem Lambda, um zu versuchen, Wiederholungsversuche mit Verzögerung zu verarbeiten, aber bisher ohne Erfolg...
(z. B.

Code: Select all

yield scrapy.downloadermiddlewares.retry.get_retry_request(
request=response.request, spider=self, reason='202 Accepted - retrying after delay', max_retry_times=self.max_retries)
oder so etwas wie:

Code: Select all

reactor.callLater(self.retry_delay,
lambda: self.crawler.engine.crawl(
scrapy.Request(
url=response.url,
callback=self.parse,
meta={'location_name': response.meta.get('location_name', ''),'retries': retries + 1})))
)
Vielen Dank im Voraus für jede Unterstützung!

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post