Wie verwende ich Wikiextractor, um den englischen Wiki-Dump nach bestimmten Kategorien zu filtern? - Programmiererforum

Wie verwende ich Wikiextractor, um den englischen Wiki-Dump nach bestimmten Kategorien zu filtern? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie verwende ich Wikiextractor, um den englischen Wiki-Dump nach bestimmten Kategorien zu filtern?

Report
Quote

Post by Anonymous » 10 Jan 2026, 12:53

Ich habe diese Version von Wikiextractor gefunden, die die Option zum Filtern von Kategorien mit einer TXT-Datei enthält: https://github.com/sandertan/wikiextractor/. Das funktioniert perfekt für das niederländische Wiki, ich habe diesen Befehl verwendet:

Code: Select all

python -m wikiextractor.WikiExtractor ../nlwiki-latest-pages-articles.xml.bz2 \
--filter_category ../categories.txt \
-o out --json --html

Die TXT-Datei enthält niederländische medizinische Kategorien, die mithilfe von https://petscan.wmflabs.org erstellt wurden. Jetzt habe ich eine ähnliche .txt-Datei mit englischen Begriffen erstellt, die so aussieht:

Code: Select all

HIV/AIDS by region
Emergency medical responders
Breast cancer

Ich habe auch enwiki-latest-pages-articles.xml.bz2 heruntergeladen. Mir kommt es so vor, als würde ich genau das Gleiche tun wie beim niederländischen Wiki. Aber es dauert sehr lange und liefert 0 Ergebnisse, auch wenn ich viel mehr Kategorien durchführe. Es funktioniert, wenn ich die Option --filter_category komplett weglasse.
Ist das englische Wiki anders formatiert, was dazu führt, dass dieser Filter nicht funktioniert? Gibt es eine andere Möglichkeit, nur Seiten zu erhalten, die sich auf Medizin beziehen?

1768046015

Anonymous

Ich habe diese Version von Wikiextractor gefunden, die die Option zum Filtern von Kategorien mit einer TXT-Datei enthält: https://github.com/sandertan/wikiextractor/. Das funktioniert perfekt für das niederländische Wiki, ich habe diesen Befehl verwendet:
[code]python -m wikiextractor.WikiExtractor ../nlwiki-latest-pages-articles.xml.bz2 \
--filter_category ../categories.txt \
-o out --json --html
[/code]
Die TXT-Datei enthält niederländische medizinische Kategorien, die mithilfe von https://petscan.wmflabs.org erstellt wurden. Jetzt habe ich eine ähnliche .txt-Datei mit englischen Begriffen erstellt, die so aussieht:
[code]HIV/AIDS by region
Emergency medical responders
Breast cancer
[/code]
Ich habe auch enwiki-latest-pages-articles.xml.bz2 heruntergeladen. Mir kommt es so vor, als würde ich genau das Gleiche tun wie beim niederländischen Wiki. Aber es dauert sehr lange und liefert 0 Ergebnisse, auch wenn ich viel mehr Kategorien durchführe. Es funktioniert, wenn ich die Option --filter_category komplett weglasse.
Ist das englische Wiki anders formatiert, was dazu führt, dass dieser Filter nicht funktioniert? Gibt es eine andere Möglichkeit, nur Seiten zu erhalten, die sich auf Medizin beziehen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Warum werden Vektoren nicht aus dem vorgebliebenen FastText-Japaner-Wiki-Modell ordnungsgemäß mit englischen Vektoren üb

Last post by Anonymous « 04 Mar 2025, 04:53
Posted in Python

by Anonymous » 04 Mar 2025, 04:53 » in Python

Ich versuche, englische Wortvektoren aus dem in Google News geschult in Google News geschult mit japanischen Sprachwort Vektoren entnommenen Modellen aus zwei verschiedenen Modellen auszurichten: das...

0 Replies

66 Views

Last post by Anonymous
04 Mar 2025, 04:53
GCC Wiki Memory Bared Probe

Last post by Anonymous « 02 Apr 2025, 05:32
Posted in C++

by Anonymous » 02 Apr 2025, 05:32 » in C++

// -Thread 1-
y.store (20, memory_order_relaxed)
x.store (10, memory_order_relaxed)

// -Thread 2-
if (x.load (memory_order_relaxed) == 10)
{
assert (y.load(memory_order_relaxed) == 20) /* assert A...

0 Replies

39 Views

Last post by Anonymous
02 Apr 2025, 05:32
Welcher Brief des englischen Alphabets nimmt die meisten Pixel ein? [geschlossen]

Last post by Anonymous « 24 Aug 2025, 23:25
Posted in CSS

by Anonymous » 24 Aug 2025, 23:25 » in CSS

Ich versuche, eine dynamische Programmierung basierend auf der Anzahl der Zeichen in einem Satz zu machen. Welcher Buchstabe des englischen Alphabets nimmt die meisten Pixel auf dem Bildschirm ein?

0 Replies

23 Views

Last post by Anonymous
24 Aug 2025, 23:25
Rückenwind, Vue-Problem mit nicht-englischen Zeichen, wenn Tags direkt hintereinander verwendet werden

Last post by Anonymous « 09 Jan 2026, 20:31
Posted in CSS

by Anonymous » 09 Jan 2026, 20:31 » in CSS

Ich habe ein Problem, wenn ich Tags direkt hintereinander verwende (z. B. span, „a“ und „p“).
Zeichen verschmelzen miteinander, obwohl sie sich in separaten HTML-Tags befinden!
Wie kann ich...

0 Replies

0 Views

Last post by Anonymous
09 Jan 2026, 20:31
Wie verwende ich Stream, um Objekte aus HashSet zu filtern, die für bestimmte Felder einen leeren Wert haben?

Last post by Anonymous « 20 Dec 2024, 23:15
Posted in Java

by Anonymous » 20 Dec 2024, 23:15 » in Java

Ich suche nach einer Möglichkeit, nur die Worker-Objekte mit einem bestimmten Vornamen und einem leeren Nachnamen aus dem angegebenen HashSet zu filtern. Ich möchte zum Beispiel, dass der Code den...

0 Replies

65 Views

Last post by Anonymous
20 Dec 2024, 23:15

Return to “Python”