Wie kann Microsoft Presidio indische Namen und ungewöhnliche Textmuster in Bankdaten erkennen und maskieren? - Programmiererforum

Wie kann Microsoft Presidio indische Namen und ungewöhnliche Textmuster in Bankdaten erkennen und maskieren? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie kann Microsoft Presidio indische Namen und ungewöhnliche Textmuster in Bankdaten erkennen und maskieren?

Report
Quote

Post by Anonymous » 15 Oct 2025, 09:43

Ich arbeite an der Anonymisierung personenbezogener Daten in Banktexten mit Microsoft Presidio
.
Die integrierte PERSON-Erkennung (die unter der Haube spaCy verwendet) funktioniert für einige westliche Namen und wenn der Satz klar ist

Code: Select all

from presidio_analyzer import AnalyzerEngine

analyzer = AnalyzerEngine()
text = "My name is John"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))

Aber es schlägt in folgenden Fällen fehl:

Code: Select all

text = "Karthik (work notes)"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))

Es fehlen auch viele indische Namen wie „Priya Sharma“ oder „Rajesh Gupta“.
Die Verwendung der standardmäßigen PERSON-Erkennung → funktioniert für einige Namen, aber viele indische Namen werden übersehen.
Das Hinzufügen eines PatternRecognizers mit einer Liste indischer Namen → ist zu starr, verarbeitet keine Variationen oder kombinierte Vor- und Nachnamen Namen.
Training eines benutzerdefinierten spaCy NER-Modells für indische Namen → möglich, aber schwer für die Produktion und erfordert laufende Wartung.
Erkennen und maskieren Sie sowohl indische als auch westliche Namen.
Funktioniert auch, wenn der Name ohne Kontext erscheint (z. B. „Karthik (Arbeitsnotizen)“).
Verwenden Sie weiterhin die Pipeline von Presidio, damit andere PII-Typen (E-Mails, Telefonnummern usw.) werden ebenfalls anonymisiert.

1760514205

Anonymous

Ich arbeite an der Anonymisierung personenbezogener Daten in Banktexten mit Microsoft Presidio
.
Die integrierte PERSON-Erkennung (die unter der Haube spaCy verwendet) funktioniert für einige westliche Namen und wenn der Satz klar ist
[code]from presidio_analyzer import AnalyzerEngine

analyzer = AnalyzerEngine()
text = "My name is John"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))
[/code]
Aber es schlägt in folgenden Fällen fehl:
[code]text = "Karthik (work notes)"
print(analyzer.analyze(text=text, entities=["PERSON"], language="en"))
[/code]
Es fehlen auch viele indische Namen wie „Priya Sharma“ oder „Rajesh Gupta“.
Die Verwendung der standardmäßigen PERSON-Erkennung → funktioniert für einige Namen, aber viele indische Namen werden übersehen.
Das Hinzufügen eines PatternRecognizers mit einer Liste indischer Namen → ist zu starr, verarbeitet keine Variationen oder kombinierte Vor- und Nachnamen Namen.
Training eines benutzerdefinierten spaCy NER-Modells für indische Namen → möglich, aber schwer für die Produktion und erfordert laufende Wartung.
Erkennen und maskieren Sie sowohl indische als auch westliche Namen.
Funktioniert auch, wenn der Name ohne Kontext erscheint (z. B. „Karthik (Arbeitsnotizen)“).
Verwenden Sie weiterhin die Pipeline von Presidio, damit andere PII-Typen (E-Mails, Telefonnummern usw.) werden ebenfalls anonymisiert.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Presidio mit Langchain Experimental erkennt keine polnischen Namen

Last post by Anonymous « 03 Mar 2025, 23:27
Posted in Python

by Anonymous » 03 Mar 2025, 23:27 » in Python

Ich verwende Presidio/Langchain_experimental, um Text in Polnisch zu anonymisieren, aber es erkennt keine Namen (z. B. Jan Kowalski ). Hier ist mein Code:
from presidio_anonymizer import...

0 Replies

11 Views

Last post by Anonymous
03 Mar 2025, 23:27
Presidio mit Langchain Experimental erkennt keine polnischen Namen

Last post by Anonymous « 09 Mar 2025, 14:15
Posted in Python

by Anonymous » 09 Mar 2025, 14:15 » in Python

Ich verwende Presidio/Langchain_experimental, um Text in Polnisch zu anonymisieren, aber es erkennt keine Namen (z. B. Jan Kowalski ). Hier ist mein Code:
from presidio_anonymizer import...

0 Replies

10 Views

Last post by Anonymous
09 Mar 2025, 14:15
Ungewöhnliche Verzögerung von Binance Web Socket erhalten

Last post by Anonymous « 01 Mar 2025, 14:17
Posted in JavaScript

by Anonymous » 01 Mar 2025, 14:17 » in JavaScript

function forceTerminate(){
forceTerm = setTimeout(() => {
ws.terminate();
isClosing = true;
}, 30000);
}

async function buyTicker(selectedToken){
if(!selectedToken){
throw new Error( No ticker found...

0 Replies

20 Views

Last post by Anonymous
01 Mar 2025, 14:17
Java Regex -Muster -Matcher, um ungewöhnliche Charaktere und asiatische Ideografien zu identifizieren

Last post by Anonymous « 19 Aug 2025, 12:13
Posted in Java

by Anonymous » 19 Aug 2025, 12:13 » in Java

Ich möchte den folgenden Text durchgehen, um bestimmte Elemente basierend auf den Java Regex -Mustern zu extrahieren:

『卥』

Für dieses Element 『卥』 , ich denke, ich werde das Element immer...

0 Replies

20 Views

Last post by Anonymous
19 Aug 2025, 12:13
Maskieren Sie das Bild, erstellen Sie Rechteck aus mehreren Gradienten

Last post by Anonymous « 22 May 2025, 22:15
Posted in CSS

by Anonymous » 22 May 2025, 22:15 » in CSS

Ich habe einen radialen Gradienten, der als Maskenbild verblasst ein Bild in die Hintergrundfarbe hinter das Bild verwendet.

mask-image: radial-gradient(ellipse at center, rgba(255,255,255,1)...

0 Replies

8 Views

Last post by Anonymous
22 May 2025, 22:15

Return to “Python”