Wie man einen effektiven Crawler in Python2.7 macht

Wie man einen effektiven Crawler in Python2.7 macht ⇐ Python

1 post • Page 1 of 1

Anonymous

Wie man einen effektiven Crawler in Python2.7 macht

Report
Quote

Post by Anonymous » 03 Oct 2025, 01:46

Ich krieche einige Kleidung, um ihre Preise und ihre Informationen über jedes Produkt verfügbar zu erhalten, aber mit meinem tatsächlichen Algorithmus dauert es Tage, bis es fertig ist, und erhält jeden unterschiedlichen Link jedes Produkts. Wenn das Produkt beispielsweise über 5 Links für 5 Farben verfügt, hat es die 5 Links, und ich habe eine Datenbank mit 92K -Einträgen und nur 5K -Produkte wie folgt:
httpps://i.gyazo.com/410d4faa33e2fbccf8979c539999856565656566565665656656565656565656565665656656565665666666666666666dd3.png< />https://i.gyazo.com/b6118e67205d153272d ... efcfc8.png
gleiche Produkt -ID (so gleiches Produkt), aber unterschiedliche Link. Ich möchte nicht wieder darin kommen. Und ich möchte das gesamte Web kriechen, aber nur diejenigen besuchen, die Produkte enthalten ... aber ich weiß nicht, wie ich diese beiden Ideen implementieren soll.import urllib
import urlparse
from itertools import ifilterfalse
from urllib2 import URLError, HTTPError

from bs4 import BeautifulSoup

urls = {"http://www.kiabi.es/"}
visited = set()

def get_html_text(url):
try:
return urllib.urlopen(current_url.encode('ascii','ignore')).read()
except (IOError,URLError, HTTPError, urllib.ContentTooShortError):
print "Error getting " + current_url
urls.add(current_url)

def find_internal_links_in_html_text(html_text, base_url):
soup = BeautifulSoup(html_text, "html.parser")
links = set()
for tag in soup.findAll('a', href=True):
url = urlparse.urljoin(base_url, tag['href'])
domain = urlparse.urlparse(base_url).hostname
if domain in url:
links.add(url)
return links

def is_url_already_visited(url):
return url in visited

while urls:
try:
word = '#C'
current_url = urls.pop()
print "Parsing", current_url
if word in current_url:

print "Parsing", current_url
htmltext= urllib.urlopen(current_url).read()
soup= BeautifulSoup(htmltext)

[get the product info and save it into a SQL database]

html_text = get_html_text(current_url)
visited.add(current_url)
found_urls = find_internal_links_in_html_text(html_text, current_url)
new_urls = ifilterfalse(is_url_already_visited, found_urls)
urls.update(new_urls)

except Exception:
pass
< /code>
Zum Beispiel verwende ich in diesem Crawler das Wort "#C", um zu wissen, dass es sich um eine Produktseite handelt, und ich weiß nicht, wie man es unterscheidet, wenn diese URL eine Produkt -ID hat, die ich bereits besucht habe. Sei großartig

1759448800

Anonymous

Ich krieche einige Kleidung, um ihre Preise und ihre Informationen über jedes Produkt verfügbar zu erhalten, aber mit meinem tatsächlichen Algorithmus dauert es Tage, bis es fertig ist, und erhält jeden unterschiedlichen Link jedes Produkts. Wenn das Produkt beispielsweise über 5 Links für 5 Farben verfügt, hat es die 5 Links, und ich habe eine Datenbank mit 92K -Einträgen und nur 5K -Produkte wie folgt:
httpps://i.gyazo.com/410d4faa33e2fbccf8979c539999856565656566565665656656565656565656565665656656565665666666666666666dd3.png< />https://i.gyazo.com/b6118e67205d153272df001fb5efcfc8.png
gleiche Produkt -ID (so gleiches Produkt), aber unterschiedliche Link. [url=viewtopic.php?t=30561]Ich möchte[/url] nicht wieder darin kommen. Und [url=viewtopic.php?t=30561]ich möchte[/url] das gesamte Web kriechen, aber nur diejenigen besuchen, die Produkte enthalten ... aber ich weiß nicht, wie ich diese beiden Ideen implementieren soll.import urllib
import urlparse
from itertools import ifilterfalse
from urllib2 import URLError, HTTPError

from bs4 import BeautifulSoup

urls = {"http://www.kiabi.es/"}
visited = set()

def get_html_text(url):
try:
return urllib.urlopen(current_url.encode('ascii','ignore')).read()
except (IOError,URLError, HTTPError, urllib.ContentTooShortError):
print "Error getting " + current_url
urls.add(current_url)

def find_internal_links_in_html_text(html_text, base_url):
soup = BeautifulSoup(html_text, "html.parser")
links = set()
for tag in soup.findAll('a', href=True):
url = urlparse.urljoin(base_url, tag['href'])
domain = urlparse.urlparse(base_url).hostname
if domain in url:
links.add(url)
return links

def is_url_already_visited(url):
return url in visited

while urls:
try:
word = '#C'
current_url = urls.pop()
print "Parsing", current_url
if word in current_url:

print "Parsing", current_url
htmltext= urllib.urlopen(current_url).read()
soup= BeautifulSoup(htmltext)

[get the product info and save it into a SQL database]

html_text = get_html_text(current_url)
visited.add(current_url)
found_urls = find_internal_links_in_html_text(html_text, current_url)
new_urls = ifilterfalse(is_url_already_visited, found_urls)
urls.update(new_urls)

except Exception:
pass
< /code>
Zum Beispiel verwende ich in diesem Crawler das Wort "#C", um zu wissen, dass es sich um eine Produktseite handelt, und ich weiß nicht, wie man es unterscheidet, wenn diese URL eine Produkt -ID hat, die ich bereits besucht habe. Sei großartig

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Tabulareditor 3: Wie kehre ich von Aktualisierungsrichtlinien mit Effektiven zur Verwendung des aktuellen Datums zurück?

Last post by Guest « 08 Feb 2025, 04:16
Posted in C#

by Guest » 08 Feb 2025, 04:16 » in C#

Für Dev/Testzwecke habe ich nur Daten Anfang Januar aus einem Power BI -Datenfluss verfügbar. Aus diesem Grund habe ich die Aktualisierungsrichtlinien mit effektives Gesetz angewendet, wie in dieser...

0 Replies

21 Views

Last post by Guest
08 Feb 2025, 04:16
Die Installation von Pysftp über Pip ist fehlgeschlagen (wegen 2 Python2.x-Versionen?)

Last post by Guest « 31 Dec 2024, 15:02
Posted in Python

by Guest » 31 Dec 2024, 15:02 » in Python

Mein Ubuntu 10.04 wurde mit Python 2.6 geliefert. Jetzt habe ich auch Python 2.7 installiert, was jetzt der Systemstandard ist, denn wenn ich Python vom Terminal aus starte, startet es Python 2.7....

0 Replies

11 Views

Last post by Guest
31 Dec 2024, 15:02
Installation von PYSFTP über PIP fehlgeschlagen (wegen 2 Python2.x -Versionen?)

Last post by Anonymous « 01 May 2025, 01:05
Posted in Python

by Anonymous » 01 May 2025, 01:05 » in Python

Mein Ubuntu 10.04 kam mit Python 2.6. Jetzt habe ich auch Python 2.7 installiert, was jetzt das System standardmäßig ist, da ich Python vom Terminal aus startete, Python 2.7. Folgen Sie unten einige...

0 Replies

9 Views

Last post by Anonymous
01 May 2025, 01:05
So ändern Sie ein Bild mit OpenCV2.0 und Python2.6

Last post by Anonymous « 26 Jun 2025, 22:22
Posted in Python

by Anonymous » 26 Jun 2025, 22:22 » in Python

Ich möchte OpenCV2.0 und Python2.6 verwenden, um die angegriffenen Bilder zu zeigen. Ich habe dieses Beispiel verwendet und angenommen, aber leider ist dieser Code für OpenCV2.1 und scheint nicht an...

0 Replies

6 Views

Last post by Anonymous
26 Jun 2025, 22:22
Wie man einen Screenshot mit Openentk macht

Last post by Anonymous « 13 Feb 2025, 20:34
Posted in C#

by Anonymous » 13 Feb 2025, 20:34 » in C#

Ich bin hierher gekommen, wie man das Bild mit OpenTK erfasst. Erstens habe ich im Beispiel keinen Zugriff auf das Objekt Glcontrol1 . Mein Hauptfenster erbt von opentk.windowing.desktop.gameWindow....

0 Replies

18 Views

Last post by Anonymous
13 Feb 2025, 20:34

Return to “Python”