Page 1 of 1

Lemma der Interpunktion in Spacy

Posted: 05 Jan 2025, 16:56
by Guest
Ich verwende Spacy für einige nachgelagerte Aufgaben, hauptsächlich für die Extraktion von Nominalphrasen. Meine Texte enthalten viele Klammern, und bei der Anwendung des Lemmas ist mir aufgefallen, dass alle Satzzeichen, die keine Sätze beenden, zu --:
werden

Code: Select all

import spacy

nlp = spacy.load("de_core_news_sm")
doc = nlp("(Das ist ein Test!)")
for token in doc:
print(f"Text: '{token.text}', Lemma: '{token.lemma_}'")
Ausgabe:

Code: Select all

Text: '(', Lemma: '--'
Text: 'Das', Lemma: 'der'
Text: 'ist', Lemma: 'sein'
Text: 'ein', Lemma: 'ein'
Text: 'Test', Lemma: 'Test'
Text: '!', Lemma: '--'
Text: ')', Lemma: '--'
Ist das normal und wenn ja, warum und was kann ich tun, um die Klammern beizubehalten?
Ich bin auf 3.7.4 mit Python 3.11