Wie filtert man Websites nach ihren Schlüsselwörtern in Metadaten? - Programmiererforum

Wie filtert man Websites nach ihren Schlüsselwörtern in Metadaten? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie filtert man Websites nach ihren Schlüsselwörtern in Metadaten?

Report
Quote

Post by Anonymous » 14 Jan 2026, 19:11

Ich habe einen Scraper geschrieben, der nur Websites mit Schlüsselwörtern scannen soll, die mit den angegebenen übereinstimmen. Dies ist der Code:

Code: Select all

class MySpider(CrawlSpider):
name = 'smm'
allowed_domains = []
start_urls = ['http://en.wikipedia.org/wiki/Social_media']
rules = (
Rule(SgmlLinkExtractor(deny=('statcounter.com/','wikipedia','play.google','books.google.com','github.com','amazon','bit.ly','wikimedia','mediawiki','creativecommons.org')), callback="parse_items", follow= True),
)
def parse_items(self, response):
items = []
#Define keywords present in metadata to scrape the webpage
keywords = ['social media','social business','social networking','social marketing','online marketing','social selling',
'social customer experience management','social cxm','social cem','social crm','google analytics','seo','sem',
'digital marketing','social media manager','community manager']
#Extract webpage keywords
metakeywords = response.xpath('//meta[@name="keywords"]').extract()
#Discard empty keywords
if metakeywords != []:
#Compare keywords and extract if one of the defined keyboards is present in the metadata
if (keywords in metaKW for metaKW in metakeywords):
for link in response.xpath("//a"):
item = SocialMediaItem()
item['SourceTitle'] = link.xpath('/html/head/title').extract()
item['TargetTitle'] = link.xpath('text()').extract()
item['link'] = link.xpath('@href').extract()
item['webKW'] = metakeywords
outbound = str(link.xpath('@href').extract())
if 'http' in outbound:
items.append(item)
return items

Allerdings glaube ich, dass mir etwas fehlt, da es auch Websites ohne die Gicen-Schlüsselwörter durchsucht. Können Sie helfen, dieses Problem zu lösen?
Danke!
Dani

1768414260

Anonymous

Ich habe einen Scraper geschrieben, der nur Websites mit Schlüsselwörtern scannen soll, die mit den angegebenen übereinstimmen. Dies ist der Code:
[code]class MySpider(CrawlSpider):
name = 'smm'
allowed_domains = []
start_urls = ['http://en.wikipedia.org/wiki/Social_media']
rules = (
Rule(SgmlLinkExtractor(deny=('statcounter.com/','wikipedia','play.google','books.google.com','github.com','amazon','bit.ly','wikimedia','mediawiki','creativecommons.org')), callback="parse_items", follow= True),
)
def parse_items(self, response):
items = []
#Define keywords present in metadata to scrape the webpage
keywords = ['social media','social business','social networking','social marketing','online marketing','social selling',
'social customer experience management','social cxm','social cem','social crm','google analytics','seo','sem',
'digital marketing','social media manager','community manager']
#Extract webpage keywords
metakeywords = response.xpath('//meta[@name="keywords"]').extract()
#Discard empty keywords
if metakeywords != []:
#Compare keywords and extract if one of the defined keyboards is present in the metadata
if (keywords in metaKW for metaKW in metakeywords):
for link in response.xpath("//a"):
item = SocialMediaItem()
item['SourceTitle'] = link.xpath('/html/head/title').extract()
item['TargetTitle'] = link.xpath('text()').extract()
item['link'] = link.xpath('@href').extract()
item['webKW'] = metakeywords
outbound = str(link.xpath('@href').extract())
if 'http' in outbound:
items.append(item)
return items
[/code]
Allerdings glaube ich, dass mir etwas fehlt, da es auch Websites ohne die Gicen-Schlüsselwörter durchsucht. Können Sie helfen, dieses [url=viewtopic.php?t=26065]Problem[/url] zu lösen?
Danke!
Dani

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Hallo, wie schaffen es die Leute, „zuletzt online: __Minuten/Std./Sek.“ zu schreiben und andere auf ihren Websites komme

Last post by Anonymous « 04 Dec 2025, 13:54
Posted in HTML

by Anonymous » 04 Dec 2025, 13:54 » in HTML

Ich bin also mit HTML fertig, lerne immer noch CSS und fange immer noch mit Javascript an (ich weiß allerdings nicht, wo ich es lernen soll). Ich erstelle eine kreative Output-Website, auf der ich...

0 Replies

11 Views

Last post by Anonymous
04 Dec 2025, 13:54
Hallo, wie schaffen es die Leute, „zuletzt online: __Minuten/Std./Sek.“ zu schreiben und andere auf ihren Websites komme

Last post by Anonymous « 04 Dec 2025, 13:54
Posted in CSS

by Anonymous » 04 Dec 2025, 13:54 » in CSS

Ich bin also mit HTML fertig, lerne immer noch CSS und fange immer noch mit Javascript an (ich weiß allerdings nicht, wo ich es lernen soll). Ich erstelle eine kreative Output-Website, auf der ich...

0 Replies

10 Views

Last post by Anonymous
04 Dec 2025, 13:54
Hallo, wie schaffen es die Leute, „zuletzt online: __Minuten/Std./Sek.“ zu schreiben und andere auf ihren Websites komme

Last post by Anonymous « 04 Dec 2025, 13:54
Posted in JavaScript

by Anonymous » 04 Dec 2025, 13:54 » in JavaScript

Ich bin also mit HTML fertig, lerne immer noch CSS und fange immer noch mit Javascript an (ich weiß allerdings nicht, wo ich es lernen soll). Ich erstelle eine kreative Output-Website, auf der ich...

0 Replies

10 Views

Last post by Anonymous
04 Dec 2025, 13:54
Lassen Sie meine App mit zusätzlichen Schlüsselwörtern durchsuchbar sein

Last post by Anonymous « 21 Mar 2025, 08:06
Posted in Android

by Anonymous » 21 Mar 2025, 08:06 » in Android

Finder scannt und Indizes installierte Apps, Kontakte, Nachrichten, Dateien, Fotos, Einstellungen und Online -Inhalte. Wie können wir für unsere App tun?

0 Replies

22 Views

Last post by Anonymous
21 Mar 2025, 08:06
MyBatis-Spaltenzuordnung mit MySQL-Schlüsselwörtern und reservierten Wörtern

Last post by Anonymous « 16 Jan 2026, 16:15
Posted in Java

by Anonymous » 16 Jan 2026, 16:15 » in Java

@Column(name = `year` )
private String year;
@Column(name = `year_month` )
private String yearMonth;

Ich habe die Felder „year“ und „yearMonth“ mit der Annotation „@Column“ versehen, aber das...

0 Replies

0 Views

Last post by Anonymous
16 Jan 2026, 16:15

Return to “Python”