by Anonymous » 31 Aug 2025, 13:44
Code: Select all
class ArticleScraper:
def __init__(self):
pass
def articleScraper(self, article_links):
article_content = []
for url in article_links:
url_i = newspaper.Article(url="%s" % (url), language='en')
url_i.download()
url_i.parse()
content = (f"TITLE:{url_i.title} ARTICLES: {url_i.text}")
print(urllib.parse.unquote(content))
article_content.append(content)
return ("\n".join(article_content))
sol = ArticleScraper()
print(sol.articleScraper(list_of_urls))
Dies ist mein aktueller Code, und das Problem, das ich habe, ist, dass wenn es den Inhalt oder den Text ausgibt, nicht alle UTF-8 kratzen. /> Ich habe versucht, das Urllib3 zu verwenden, und mit BS4 auch kein Glück auf dem Urllib3 auf BS4, es funktioniert die Codierung und Dekodierung, aber ich wollte Zeitung3k verwenden, weil es beim Schaber effizienter ist. < /p.>
[code]class ArticleScraper:
def __init__(self):
pass
def articleScraper(self, article_links):
article_content = []
for url in article_links:
url_i = newspaper.Article(url="%s" % (url), language='en')
url_i.download()
url_i.parse()
content = (f"TITLE:{url_i.title} ARTICLES: {url_i.text}")
print(urllib.parse.unquote(content))
article_content.append(content)
return ("\n".join(article_content))
sol = ArticleScraper()
print(sol.articleScraper(list_of_urls))
[/code]
Dies ist mein aktueller Code, und das Problem, das ich habe, ist, dass wenn es den Inhalt oder den Text ausgibt, nicht alle UTF-8 kratzen. /> Ich habe versucht, das Urllib3 zu verwenden, und mit BS4 auch kein Glück auf dem Urllib3 auf BS4, es funktioniert die Codierung und Dekodierung, aber ich wollte Zeitung3k verwenden, weil es beim Schaber effizienter ist. < /p.>