Lemma der Interpunktion in Spacy

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Lemma der Interpunktion in Spacy

by Guest » 05 Jan 2025, 16:56

Ich verwende Spacy für einige nachgelagerte Aufgaben, hauptsächlich für die Extraktion von Nominalphrasen. Meine Texte enthalten viele Klammern, und bei der Anwendung des Lemmas ist mir aufgefallen, dass alle Satzzeichen, die keine Sätze beenden, zu --:
werden

Code: Select all

import spacy

nlp = spacy.load("de_core_news_sm")
doc = nlp("(Das ist ein Test!)")
for token in doc:
print(f"Text: '{token.text}', Lemma: '{token.lemma_}'")
Ausgabe:

Code: Select all

Text: '(', Lemma: '--'
Text: 'Das', Lemma: 'der'
Text: 'ist', Lemma: 'sein'
Text: 'ein', Lemma: 'ein'
Text: 'Test', Lemma: 'Test'
Text: '!', Lemma: '--'
Text: ')', Lemma: '--'
Ist das normal und wenn ja, warum und was kann ich tun, um die Klammern beizubehalten?
Ich bin auf 3.7.4 mit Python 3.11

Top