by Anonymous » 24 Feb 2025, 01:18
Ich habe im Laufe der Zeit einige Daten zu den Professoren einiger verschiedener akademischer Abteilungen gesammelt. Da ich die Daten aus zwei verschiedenen Quellen gesammelt habe, weiß ich, dass die meisten Namen übereinstimmen sollten, während einige der Namen möglicherweise nicht übereinstimmen-mit den Unterschieden im Zeitbereich zwischen Datensätzen. Die Namen selbst können kleine bis mittlere Variationen enthalten. Ich habe nur versucht, den besten Algorithmus für die Durchführung der Übereinstimmungen zu finden, sodass ich meine manuelle Validierungsaufwand nach der Durchführung der Übereinstimmung minimiere. Sieh wie folgt aus: < /p>
James Coleville
James A. Coleville
J Coleville
Margaret Miller
< /code>
Dann in der entsprechenden Liste < /p>
J. Coleville
James Coleville.
M. Miller
M. Miller.
< /code>
Also habe ich versucht, eine gute Möglichkeit zu finden, diese Übereinstimmung durchzuführen, da ich weiß, dass es eine ziemlich gute Anzahl von Übereinstimmungen geben sollte. Das
Problem ist, dass ich, wenn ich eine einfache Distanzmetrik zwischen Namen verwende, einen Schwellenwert für die Distanzmetrik auferlegen muss und dies zu schlechten oder verpassten Stimmigkeiten führt (Matched, die hätte auftreten müssen, aber nicht).
Natürlich bestand der erste Schritt darin, die Interpunktion aus den Namen zu entfernen. Aber danach bin ich ein wenig verwirrt, weil die Auswahl verschiedener Distanzmetriken wie der Levenshtein -Metrik oder der Jaccard -Distanz unterschiedliche Matchings erzeugen kann. < /P>
Gibt es einen besseren Weg, dies zu tun? Oder gibt es vielleicht ein vorhandenes Paket, das so etwas in Python oder r?
Ich habe im Laufe der Zeit einige Daten zu den Professoren einiger verschiedener akademischer Abteilungen gesammelt. Da ich die Daten aus zwei verschiedenen Quellen gesammelt habe, weiß ich, dass die meisten Namen übereinstimmen sollten, während einige der Namen möglicherweise nicht übereinstimmen-mit den Unterschieden im Zeitbereich zwischen Datensätzen. Die Namen selbst können kleine bis mittlere Variationen enthalten. Ich habe nur versucht, den besten Algorithmus für die Durchführung der Übereinstimmungen zu finden, sodass ich meine manuelle Validierungsaufwand nach der Durchführung der Übereinstimmung minimiere. Sieh wie folgt aus: < /p>
James Coleville
James A. Coleville
J Coleville
Margaret Miller
< /code>
Dann in der entsprechenden Liste < /p>
J. Coleville
James Coleville.
M. Miller
M. Miller.
< /code>
Also habe ich versucht, eine gute Möglichkeit zu finden, diese Übereinstimmung durchzuführen, da ich weiß, dass es eine ziemlich gute Anzahl von Übereinstimmungen geben sollte. Das [url=viewtopic.php?t=11587]Problem[/url] ist, dass ich, wenn ich eine einfache Distanzmetrik zwischen Namen verwende, einen Schwellenwert für die Distanzmetrik auferlegen muss und dies zu schlechten oder verpassten Stimmigkeiten führt (Matched, die hätte auftreten müssen, aber nicht).
Natürlich bestand der erste Schritt darin, die Interpunktion aus den Namen zu entfernen. Aber danach bin ich ein wenig verwirrt, weil die Auswahl verschiedener Distanzmetriken wie der Levenshtein -Metrik oder der Jaccard -Distanz unterschiedliche Matchings erzeugen kann. < /P>
Gibt es einen besseren Weg, dies zu tun? Oder gibt es vielleicht ein vorhandenes Paket, das so etwas in Python oder r?