Lemma der Interpunktion in SpacyPython

Python-Programme
Guest
 Lemma der Interpunktion in Spacy

Post by Guest »

Ich verwende Spacy für einige nachgelagerte Aufgaben, hauptsächlich für die Extraktion von Nominalphrasen. Meine Texte enthalten viele Klammern, und bei der Anwendung des Lemmas ist mir aufgefallen, dass alle Satzzeichen, die keine Sätze beenden, zu --:
werden

Code: Select all

import spacy

nlp = spacy.load("de_core_news_sm")
doc = nlp("(Das ist ein Test!)")
for token in doc:
print(f"Text: '{token.text}', Lemma: '{token.lemma_}'")
Ausgabe:

Code: Select all

Text: '(', Lemma: '--'
Text: 'Das', Lemma: 'der'
Text: 'ist', Lemma: 'sein'
Text: 'ein', Lemma: 'ein'
Text: 'Test', Lemma: 'Test'
Text: '!', Lemma: '--'
Text: ')', Lemma: '--'
Ist das normal und wenn ja, warum und was kann ich tun, um die Klammern beizubehalten?
Ich bin auf 3.7.4 mit Python 3.11

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post