.
Die integrierte PERSON-Erkennung (die unter der Haube spaCy verwendet) funktioniert für einige westliche Namen und wenn der Satz klar ist
Code: Select all
from presidio_analyzer import AnalyzerEngine
analyzer = AnalyzerEngine()
text = "My name is John"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))
Code: Select all
text = "Karthik (work notes)"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))
Die Verwendung der standardmäßigen PERSON-Erkennung → funktioniert für einige Namen, aber viele indische Namen werden übersehen.
Das Hinzufügen eines PatternRecognizers mit einer Liste indischer Namen → ist zu starr, verarbeitet keine Variationen oder kombinierte Vor- und Nachnamen Namen.
Training eines benutzerdefinierten spaCy NER-Modells für indische Namen → möglich, aber schwer für die Produktion und erfordert laufende Wartung.
Erkennen und maskieren Sie sowohl indische als auch westliche Namen.
Funktioniert auch, wenn der Name ohne Kontext erscheint (z. B. „Karthik (Arbeitsnotizen)“).
Verwenden Sie weiterhin die Pipeline von Presidio, damit andere PII-Typen (E-Mails, Telefonnummern usw.) werden ebenfalls anonymisiert.
Mobile version