Ich habe diese Version von Wikiextractor gefunden, die die Option zum Filtern von Kategorien mit einer TXT-Datei enthält:
https://github.com/sandertan/wikiextractor/. Das funktioniert perfekt für das niederländische Wiki, ich habe diesen Befehl verwendet:
Code: Select all
python -m wikiextractor.WikiExtractor ../nlwiki-latest-pages-articles.xml.bz2 \
--filter_category ../categories.txt \
-o out --json --html
Die TXT-Datei enthält niederländische medizinische Kategorien, die mithilfe von
https://petscan.wmflabs.org erstellt wurden. Jetzt habe ich eine ähnliche .txt-Datei mit englischen Begriffen erstellt, die so aussieht:
Code: Select all
HIV/AIDS by region
Emergency medical responders
Breast cancer
Ich habe auch enwiki-latest-pages-articles.xml.bz2 heruntergeladen. Mir kommt es so vor, als würde ich genau das Gleiche tun wie beim niederländischen Wiki. Aber es dauert sehr lange und liefert 0 Ergebnisse, auch wenn ich viel mehr Kategorien durchführe. Es funktioniert, wenn ich die Option --filter_category komplett weglasse.
Ist das englische Wiki anders formatiert, was dazu führt, dass dieser Filter nicht funktioniert? Gibt es eine andere Möglichkeit, nur Seiten zu erhalten, die sich auf Medizin beziehen?