Körper:
Ich möchte ein Programm erstellen, in dem ein Benutzer jeden beliebigen Text eingeben kann, den er studieren möchte.
Während des Lesens kann der Benutzer bestimmte Wörter auswählen. Jedes ausgewählte Wort sollte in einem Wörterbuch oder einer Liste gespeichert werden.
Wenn der Benutzer später einen anderen Text liest, sollte das Programm prüfen, ob eines der gespeicherten Wörter (oder deren Variationen) im neuen Text vorkommt. Zum Beispiel:
- Wenn der Benutzer „studieren“ auswählt, sollte das Programm auch „studiert“, „studiert“, „studieren“ usw. erkennen.
- Das Ziel besteht darin, den Benutzer daran zu erinnern, dass er dieses Wort bereits zuvor gelernt hat, auch wenn es in einer anderen Form erscheint.
Meine Fragen sind:
1. Was ist die beste Datenstruktur zum Speichern dieser Wörter und ihrer Variationen (Wörterbuch, Menge, Datenbank)?
2. Sollte ich mich auf Stemming-/Lemmatisierungsbibliotheken (wie NLTK oder spaCy in Python) verlassen, oder ist es besser, Wortformen von einer Online-Wörterbuch-API abzurufen?
3. Wie kann ich in großen Texten effizient nach Übereinstimmungen suchen?
Ich habe mich noch nicht entschieden, welche Programmiersprache ich verwenden soll. Wären Python, JavaScript oder eine andere Sprache für diese Art von Textverarbeitungsaufgabe besser geeignet?
Vorschläge zu Architektur, Bibliotheken oder Algorithmen wären sehr hilfreich.
Wie speichert man vom Benutzer ausgewählte Wörter und ordnet sie textübergreifend ihren unterschiedlichen Formen zu? ⇐ JavaScript
-
- Similar Topics
- Replies
- Views
- Last post
Mobile version