Wie kann Microsoft Presidio indische Namen und ungewöhnliche Textmuster in Bankdaten erkennen und maskieren?Python

Python-Programme
Anonymous
 Wie kann Microsoft Presidio indische Namen und ungewöhnliche Textmuster in Bankdaten erkennen und maskieren?

Post by Anonymous »

Ich arbeite an der Anonymisierung personenbezogener Daten in Banktexten mit Microsoft Presidio
.
Die integrierte PERSON-Erkennung (die unter der Haube spaCy verwendet) funktioniert für einige westliche Namen und wenn der Satz klar ist

Code: Select all

from presidio_analyzer import AnalyzerEngine

analyzer = AnalyzerEngine()
text = "My name is John"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))
Aber es schlägt in folgenden Fällen fehl:

Code: Select all

text = "Karthik (work notes)"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))
Es fehlen auch viele indische Namen wie „Priya Sharma“ oder „Rajesh Gupta“.
Die Verwendung der standardmäßigen PERSON-Erkennung → funktioniert für einige Namen, aber viele indische Namen werden übersehen.
Das Hinzufügen eines PatternRecognizers mit einer Liste indischer Namen → ist zu starr, verarbeitet keine Variationen oder kombinierte Vor- und Nachnamen Namen.
Training eines benutzerdefinierten spaCy NER-Modells für indische Namen → möglich, aber schwer für die Produktion und erfordert laufende Wartung.
Erkennen und maskieren Sie sowohl indische als auch westliche Namen.
Funktioniert auch, wenn der Name ohne Kontext erscheint (z. B. „Karthik (Arbeitsnotizen)“).
Verwenden Sie weiterhin die Pipeline von Presidio, damit andere PII-Typen (E-Mails, Telefonnummern usw.) werden ebenfalls anonymisiert.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post