Beschreibung:
Ich arbeite an einem Projekt, bei dem ich feststellen muss, ob zwei Unternehmensunterlagen das gleiche Unternehmen darstellen oder nicht. Die Daten, die ich für jedes Unternehmen habe
City
State
Pincode
Telefonnummern (in einigen Fällen verfügbar, aber nicht immer)
Herausforderungen:
inkonsistente Firmennamen: < /p> < BR /> Beispiele: "ABC Pvt Ltd" gegen "ABC Private Limited" oder "XYZ Corp." vs. "X.Y.Z Corporation"
Rechtschreibfehler und Abkürzungen sind ebenfalls häufig. Zum Beispiel:
"123, Mg Road" vs. "123 mg rd"
"Gebäude Nr. 5" gegen "BLDG 5"
"Sektor-15" vs. "Sec- 15 "< /p>
Teildaten: In einigen Fällen fehlen oder unvollständige Telefonnummern. Gewicht für bestimmte Felder (z. B. Pincode und Gebäudenummer) als andere? . . Algorithmus: Soll ich Fuzzy -Matching, semantische Ähnlichkeit oder ein Modell für maschinelles Lernen verwenden? (z. B. Pincode und Gebäudenummer) gegenüber anderen?
Wie kann ich Firmennamen und -adressen genau übereinstimmen, um doppelte Unternehmen zu identifizieren? ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post