Wie kann ich Firmennamen und -adressen genau übereinstimmen, um doppelte Unternehmen zu identifizieren?Python

Python-Programme
Anonymous
 Wie kann ich Firmennamen und -adressen genau übereinstimmen, um doppelte Unternehmen zu identifizieren?

Post by Anonymous »

Beschreibung:
Ich arbeite an einem Projekt, bei dem ich feststellen muss, ob zwei Unternehmensunterlagen das gleiche Unternehmen darstellen oder nicht. Die Daten, die ich für jedes Unternehmen habe
City
State
Pincode
Telefonnummern (in einigen Fällen verfügbar, aber nicht immer)
Herausforderungen:
inkonsistente Firmennamen: < /p> < BR /> Beispiele: "ABC Pvt Ltd" gegen "ABC Private Limited" oder "XYZ Corp." vs. "X.Y.Z Corporation"
Rechtschreibfehler und Abkürzungen sind ebenfalls häufig. Zum Beispiel:
"123, Mg Road" vs. "123 mg rd"
"Gebäude Nr. 5" gegen "BLDG 5"
"Sektor-15" vs. "Sec- 15 "< /p>
Teildaten: In einigen Fällen fehlen oder unvollständige Telefonnummern. Gewicht für bestimmte Felder (z. B. Pincode und Gebäudenummer) als andere? . . Algorithmus: Soll ich Fuzzy -Matching, semantische Ähnlichkeit oder ein Modell für maschinelles Lernen verwenden? (z. B. Pincode und Gebäudenummer) gegenüber anderen?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post