Lemma der Interpunktion in Spacy
Posted: 05 Jan 2025, 16:56
Ich verwende Spacy für einige nachgelagerte Aufgaben, hauptsächlich für die Extraktion von Nominalphrasen. Meine Texte enthalten viele Klammern, und bei der Anwendung des Lemmas ist mir aufgefallen, dass alle Satzzeichen, die keine Sätze beenden, zu --:
werden
Ausgabe:
Ist das normal und wenn ja, warum und was kann ich tun, um die Klammern beizubehalten?
Ich bin auf 3.7.4 mit Python 3.11
werden
Code: Select all
import spacy
nlp = spacy.load("de_core_news_sm")
doc = nlp("(Das ist ein Test!)")
for token in doc:
print(f"Text: '{token.text}', Lemma: '{token.lemma_}'")
Code: Select all
Text: '(', Lemma: '--'
Text: 'Das', Lemma: 'der'
Text: 'ist', Lemma: 'sein'
Text: 'ein', Lemma: 'ein'
Text: 'Test', Lemma: 'Test'
Text: '!', Lemma: '--'
Text: ')', Lemma: '--'
Ich bin auf 3.7.4 mit Python 3.11