by Guest » 05 Jan 2025, 16:56
Ich verwende Spacy für einige nachgelagerte Aufgaben, hauptsächlich für die Extraktion von Nominalphrasen. Meine Texte enthalten viele Klammern, und bei der Anwendung des Lemmas ist mir aufgefallen, dass alle Satzzeichen, die keine Sätze beenden, zu --:
werden
Code: Select all
import spacy
nlp = spacy.load("de_core_news_sm")
doc = nlp("(Das ist ein Test!)")
for token in doc:
print(f"Text: '{token.text}', Lemma: '{token.lemma_}'")
Ausgabe:
Code: Select all
Text: '(', Lemma: '--'
Text: 'Das', Lemma: 'der'
Text: 'ist', Lemma: 'sein'
Text: 'ein', Lemma: 'ein'
Text: 'Test', Lemma: 'Test'
Text: '!', Lemma: '--'
Text: ')', Lemma: '--'
Ist das normal und wenn ja, warum und was kann ich tun, um die Klammern beizubehalten?
Ich bin auf 3.7.4 mit Python 3.11
Ich verwende Spacy für einige nachgelagerte Aufgaben, hauptsächlich für die Extraktion von Nominalphrasen. Meine Texte enthalten viele Klammern, und bei der Anwendung des Lemmas ist mir aufgefallen, dass alle Satzzeichen, die keine Sätze beenden, zu --:
werden[code]import spacy
nlp = spacy.load("de_core_news_sm")
doc = nlp("(Das ist ein Test!)")
for token in doc:
print(f"Text: '{token.text}', Lemma: '{token.lemma_}'")
[/code]
Ausgabe:
[code]Text: '(', Lemma: '--'
Text: 'Das', Lemma: 'der'
Text: 'ist', Lemma: 'sein'
Text: 'ein', Lemma: 'ein'
Text: 'Test', Lemma: 'Test'
Text: '!', Lemma: '--'
Text: ')', Lemma: '--'
[/code]
Ist das normal und wenn ja, warum und was kann ich tun, um die Klammern beizubehalten?
Ich bin auf 3.7.4 mit Python 3.11