Scrapy Webcrawler weigert sich, http auf localhost zu crawlen

Scrapy Webcrawler weigert sich, http auf localhost zu crawlen ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Scrapy Webcrawler weigert sich, http auf localhost zu crawlen

Report
Quote

Post by Anonymous » 26 Oct 2025, 10:43

Ich hatte einen kleinen Webcrawler, der mit Scrapy geschrieben wurde, und da ich ihn während der Entwicklung nicht auf einer echten Website ausführen wollte, verwendete ich einen lokalen Spiegel. Mirror wurde mit python -m http.server 8000 bereitgestellt und es funktionierte einwandfrei.
Vor kurzem habe ich die Entwicklung auf den Mac verschoben und es scheint nicht einmal zu versuchen, die http-Site zu öffnen.

Code: Select all

2025-05-18 20:05:43 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 1 times): []
2025-05-18 20:05:43 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 2 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying  (failed 3 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.robotstxt] ERROR: Error downloading : []
Traceback (most recent call last):
File "/opt/anaconda3/lib/python3.12/site-packages/scrapy/core/downloader/middleware.py", line 54, in process_request
return (yield download_func(request=request, spider=spider))
twisted.web._newclient.ResponseNeverReceived: []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 1 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 2 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying  (failed 3 times): []
2025-05-18 20:05:44 [scrapy.core.scraper] ERROR: Error downloading 
Traceback (most recent call last):
File "/opt/anaconda3/lib/python3.12/site-packages/scrapy/core/downloader/middleware.py", line 54, in process_request
return (yield download_func(request=request, spider=spider))
twisted.web._newclient.ResponseNeverReceived: []
2025-05-18 20:05:44 [scrapy.core.engine] INFO: Closing spider (finished)
2025-05-18 20:05:44 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/exception_count': 6,
'downloader/exception_type_count/twisted.web._newclient.ResponseNeverReceived': 6,
'downloader/request_bytes': 1374,
'downloader/request_count': 6,
'downloader/request_method_count/GET': 6,
'elapsed_time_seconds': 5.934072,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2025, 5, 19, 3, 5, 44, 715649, tzinfo=datetime.timezone.utc),
'log_count/DEBUG': 7,
'log_count/ERROR': 4,
'log_count/INFO': 12,
'memusage/max': 75595776,
'memusage/startup': 75595776,
'retry/count': 4,
'retry/max_reached': 2,
'retry/reason_count/twisted.web._newclient.ResponseNeverReceived': 4,
"robotstxt/exception_count/": 1,
'robotstxt/request_count': 1,
'scheduler/dequeued': 3,
'scheduler/dequeued/memory': 3,
'scheduler/enqueued': 3,
'scheduler/enqueued/memory': 3,
'start_time': datetime.datetime(2025, 5, 19, 3, 5, 38, 781577, tzinfo=datetime.timezone.utc)}

Ich habe verschiedene Ports ausprobiert, aber kein Glück. Der Zugriff auf die Website erfolgt über einen Webbrowser und Curl. Ich habe mir auch den Datenverkehr über Wireshark angesehen und sehe beim Ausführen von Scrappy nicht einmal einen Verbindungsversuch. Hat sich etwas an http geändert?
Danke!

1761471800

Anonymous

Ich hatte einen kleinen Webcrawler, der mit Scrapy geschrieben wurde, und da ich ihn während der Entwicklung nicht auf einer echten Website ausführen wollte, verwendete ich einen lokalen Spiegel.   Mirror wurde mit python -m http.server 8000 bereitgestellt und es funktionierte einwandfrei.
Vor kurzem habe ich die Entwicklung auf den Mac verschoben und es scheint nicht einmal zu versuchen, die http-Site zu öffnen.
[code]2025-05-18 20:05:43 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 1 times): []
2025-05-18 20:05:43 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 2 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying  (failed 3 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.robotstxt] ERROR: Error downloading : []
Traceback (most recent call last):
File "/opt/anaconda3/lib/python3.12/site-packages/scrapy/core/downloader/middleware.py", line 54, in process_request
return (yield download_func(request=request, spider=spider))
twisted.web._newclient.ResponseNeverReceived: []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 1 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying  (failed 2 times): []
2025-05-18 20:05:44 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying  (failed 3 times): []
2025-05-18 20:05:44 [scrapy.core.scraper] ERROR: Error downloading 
Traceback (most recent call last):
File "/opt/anaconda3/lib/python3.12/site-packages/scrapy/core/downloader/middleware.py", line 54, in process_request
return (yield download_func(request=request, spider=spider))
twisted.web._newclient.ResponseNeverReceived: []
2025-05-18 20:05:44 [scrapy.core.engine] INFO: Closing spider (finished)
2025-05-18 20:05:44 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/exception_count': 6,
'downloader/exception_type_count/twisted.web._newclient.ResponseNeverReceived': 6,
'downloader/request_bytes': 1374,
'downloader/request_count': 6,
'downloader/request_method_count/GET': 6,
'elapsed_time_seconds': 5.934072,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2025, 5, 19, 3, 5, 44, 715649, tzinfo=datetime.timezone.utc),
'log_count/DEBUG': 7,
'log_count/ERROR': 4,
'log_count/INFO': 12,
'memusage/max': 75595776,
'memusage/startup': 75595776,
'retry/count': 4,
'retry/max_reached': 2,
'retry/reason_count/twisted.web._newclient.ResponseNeverReceived': 4,
"robotstxt/exception_count/": 1,
'robotstxt/request_count': 1,
'scheduler/dequeued': 3,
'scheduler/dequeued/memory': 3,
'scheduler/enqueued': 3,
'scheduler/enqueued/memory': 3,
'start_time': datetime.datetime(2025, 5, 19, 3, 5, 38, 781577, tzinfo=datetime.timezone.utc)}
[/code]
Ich habe verschiedene Ports ausprobiert, aber kein Glück.  Der Zugriff auf die Website erfolgt über einen Webbrowser und Curl.   Ich habe mir auch den Datenverkehr über Wireshark angesehen und sehe beim Ausführen von Scrappy nicht einmal einen Verbindungsversuch.  Hat sich etwas an http geändert?
Danke!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Instanz der Komponente weigert sich, erstellt zu werden

Last post by Guest « 12 Feb 2025, 06:58
Posted in HTML

by Guest » 12 Feb 2025, 06:58 » in HTML

Ich kann es nicht mit irgendetwas reproduzieren, und ich habe völlig aus Erklärungen, warum es passieren könnte ... Ich habe die folgende Komponente (mit SideLementis3d auf wahr, so dass die...

0 Replies

16 Views

Last post by Guest
12 Feb 2025, 06:58
Android Studio weigert sich, Main () zu betreiben ()

Last post by Anonymous « 13 Feb 2025, 19:44
Posted in Java

by Anonymous » 13 Feb 2025, 19:44 » in Java

Repro -Schritte:

Starten Sie ein neues Projekt in Android Studio (mit dem neuesten Update);
Machen Sie eine neue Klasse und fügen Sie Main () wie üblich hinzu;
Klicken Sie mit der rechten...

0 Replies

13 Views

Last post by Anonymous
13 Feb 2025, 19:44
Zugriff auf xmlhttprequest unter 'http://127.0.0.1:8082/api/cvs/recrutement' from Origin 'http: // localhost: 4200' wurd

Last post by Guest « 20 Feb 2025, 09:08
Posted in Java

by Guest » 20 Feb 2025, 09:08 » in Java

Kannst du mir helfen, es zu beheben,
Access to XMLHttpRequest at ' from origin ' has been blocked by CORS policy: Response to preflight request doesn't pass access control check: No...

0 Replies

33 Views

Last post by Guest
20 Feb 2025, 09:08
CORS -Fehler: `Zugriff auf xmlhttprequest unter 'http: //127.0.0.1: 8082/....' From Origin 'http: // localhost: 4200' wu

Last post by Anonymous « 20 Feb 2025, 23:58
Posted in Java

by Anonymous » 20 Feb 2025, 23:58 » in Java

Können Sie mir helfen, diesen CORS-Fehler zu beheben? Access to XMLHttpRequest at ' from origin ' has been blocked by CORS policy: Response to preflight request doesn't pass access control check: No...

0 Replies

19 Views

Last post by Anonymous
20 Feb 2025, 23:58
Wie kann ich PDFs mit einem KI -Webcrawler herunterladen? (Crawler4ai)

Last post by Anonymous « 25 Feb 2025, 21:50
Posted in Python

by Anonymous » 25 Feb 2025, 21:50 » in Python

Ich habe Crawler4ai verwendet, um zu versuchen, eine Reihe von Dokumenten von dieser Website herunterzuladen. Da er jedoch JavaScript -Code benötigt und ich Python verwende, weiß ich nicht, dass ich...

0 Replies

15 Views

Last post by Anonymous
25 Feb 2025, 21:50

Return to “Python”