Wie verwende ich Wikiextractor, um den englischen Wiki-Dump nach bestimmten Kategorien zu filtern?Python

Python-Programme
Anonymous
 Wie verwende ich Wikiextractor, um den englischen Wiki-Dump nach bestimmten Kategorien zu filtern?

Post by Anonymous »

Ich habe diese Version von Wikiextractor gefunden, die die Option zum Filtern von Kategorien mit einer TXT-Datei enthält: https://github.com/sandertan/wikiextractor/. Das funktioniert perfekt für das niederländische Wiki, ich habe diesen Befehl verwendet:

Code: Select all

python -m wikiextractor.WikiExtractor ../nlwiki-latest-pages-articles.xml.bz2 \
--filter_category ../categories.txt \
-o out --json --html
Die TXT-Datei enthält niederländische medizinische Kategorien, die mithilfe von https://petscan.wmflabs.org erstellt wurden. Jetzt habe ich eine ähnliche .txt-Datei mit englischen Begriffen erstellt, die so aussieht:

Code: Select all

HIV/AIDS by region
Emergency medical responders
Breast cancer
Ich habe auch enwiki-latest-pages-articles.xml.bz2 heruntergeladen. Mir kommt es so vor, als würde ich genau das Gleiche tun wie beim niederländischen Wiki. Aber es dauert sehr lange und liefert 0 Ergebnisse, auch wenn ich viel mehr Kategorien durchführe. Es funktioniert, wenn ich die Option --filter_category komplett weglasse.
Ist das englische Wiki anders formatiert, was dazu führt, dass dieser Filter nicht funktioniert? Gibt es eine andere Möglichkeit, nur Seiten zu erhalten, die sich auf Medizin beziehen?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post