Scrapy Webcrawler weigert sich, http auf localhost zu crawlenPython

Python-Programme
Anonymous
 Scrapy Webcrawler weigert sich, http auf localhost zu crawlen

Post by Anonymous »

Ich hatte einen kleinen Webcrawler, der mit Scrapy geschrieben wurde, und da ich ihn während der Entwicklung nicht auf einer echten Website ausführen wollte, verwendete ich einen lokalen Spiegel. Mirror wurde mit python -m http.server 8000 bereitgestellt und es funktionierte einwandfrei.
Vor kurzem habe ich die Entwicklung auf den Mac verschoben und es scheint nicht einmal zu versuchen, die http-Site zu öffnen.

Code: Select all

2025-05-18 20:05:43 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 1 times): []
2025-05-18 20:05:43 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 2 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying  (failed 3 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.robotstxt] ERROR: Error downloading : []
Traceback (most recent call last):
File "/opt/anaconda3/lib/python3.12/site-packages/scrapy/core/downloader/middleware.py", line 54, in process_request
return (yield download_func(request=request, spider=spider))
twisted.web._newclient.ResponseNeverReceived: []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 1 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 2 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying  (failed 3 times): []
2025-05-18 20:05:44 [scrapy.core.scraper] ERROR: Error downloading 
Traceback (most recent call last):
File "/opt/anaconda3/lib/python3.12/site-packages/scrapy/core/downloader/middleware.py", line 54, in process_request
return (yield download_func(request=request, spider=spider))
twisted.web._newclient.ResponseNeverReceived: []
2025-05-18 20:05:44 [scrapy.core.engine] INFO: Closing spider (finished)
2025-05-18 20:05:44 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/exception_count': 6,
'downloader/exception_type_count/twisted.web._newclient.ResponseNeverReceived': 6,
'downloader/request_bytes': 1374,
'downloader/request_count': 6,
'downloader/request_method_count/GET': 6,
'elapsed_time_seconds': 5.934072,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2025, 5, 19, 3, 5, 44, 715649, tzinfo=datetime.timezone.utc),
'log_count/DEBUG': 7,
'log_count/ERROR': 4,
'log_count/INFO': 12,
'memusage/max': 75595776,
'memusage/startup': 75595776,
'retry/count': 4,
'retry/max_reached': 2,
'retry/reason_count/twisted.web._newclient.ResponseNeverReceived': 4,
"robotstxt/exception_count/": 1,
'robotstxt/request_count': 1,
'scheduler/dequeued': 3,
'scheduler/dequeued/memory': 3,
'scheduler/enqueued': 3,
'scheduler/enqueued/memory': 3,
'start_time': datetime.datetime(2025, 5, 19, 3, 5, 38, 781577, tzinfo=datetime.timezone.utc)}
Ich habe verschiedene Ports ausprobiert, aber kein Glück. Der Zugriff auf die Website erfolgt über einen Webbrowser und Curl. Ich habe mir auch den Datenverkehr über Wireshark angesehen und sehe beim Ausführen von Scrappy nicht einmal einen Verbindungsversuch. Hat sich etwas an http geändert?
Danke!

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post