Page 1 of 1

So dekodieren Sie den UTF-8-Text aus der Zeitung3k-Bibliothek

Posted: 31 Aug 2025, 13:44
by Anonymous

Code: Select all

class ArticleScraper:
def __init__(self):
pass

def articleScraper(self, article_links):
article_content = []
for url in article_links:
url_i = newspaper.Article(url="%s" % (url), language='en')
url_i.download()
url_i.parse()
content = (f"TITLE:{url_i.title} ARTICLES: {url_i.text}")
print(urllib.parse.unquote(content))
article_content.append(content)

return ("\n".join(article_content))
sol = ArticleScraper()
print(sol.articleScraper(list_of_urls))
Dies ist mein aktueller Code, und das Problem, das ich habe, ist, dass wenn es den Inhalt oder den Text ausgibt, nicht alle UTF-8 kratzen. /> Ich habe versucht, das Urllib3 zu verwenden, und mit BS4 auch kein Glück auf dem Urllib3 auf BS4, es funktioniert die Codierung und Dekodierung, aber ich wollte Zeitung3k verwenden, weil es beim Schaber effizienter ist. < /p.>