Ich habe eine CSV
Code: Select all
English Spanish Count AF ... # other numerical columns
0 'hello' 'hola' 23 0
1 'helo' 'hola' 2 1
2 'hello' 'hola_a' 1 0
3 'hallo' 'a_aureola' 1 1
...
< /code>
Ich möchte Zeilen als 'dupliziert' basierend auf diesen Kriterien betrachten: < /p>
[list]
[*] Wenn die Levenshtein -String -Bearbeitungsentfernung zwischen zwei Zeilen von englischen Einträgen unter einem Schwellenwert liegt, und das Spanier ist ein Duplicate. Zeilen 0 und 1 haben eine englische Bearbeitungsentfernung von 1, und das Spanier ist ein genaues Übereinstimmung < /li>
< /ul>
< /li>
Wenn das Englisch von zwei Zeilen eine genaue Übereinstimmung ist, und die spanischen Einträge eine Überlappung von ungleich Null haben, wenn sie auf _ < /code> _ < /code> sind. Zeilen 0 und 2 passen in englischer Sprache und row0 'Hola'.split (' _ ') -> [' Hola ']