Pandas - Übereinstimmung Zeilen als Duplikate, die auf den Kriterien basieren
Posted: 02 Apr 2025, 11:31
Ich habe mehrere andere verwandte Fragen zu Pandas gestöbert und Dokumentation für GroupBy und dupliziert , aber ich kann keinen Weg finden, alle Teile in Pandas zusammen zu passen. Ich könnte dies tun, indem ich mehrmals über die Zeilen in meinem CSV iterierte und paarweise Vergleiche durchführen, aber es scheint, als sollte ich in Pandas in der Lage sein. Wenn zwei Zeilen "Duplikate" voneinander sind, fusionieren Sie die Spalten 0 und 1 der ersten Zeile und verwenden Sie SUM () für den Rest der Spalten.
Ich habe eine CSV hat eine Überlappung mit Row2' Hola_a'.split ('_') -> ['Hola', 'A'] Da beide Listen 'Hola' [/list]
Ich habe eine CSV
Code: Select all
English Spanish Count AF ... # other numerical columns
0 'hello' 'hola' 23 0
1 'helo' 'hola' 2 1
2 'hello' 'hola_a' 1 0
3 'hallo' 'a_aureola' 1 1
...
< /code>
Ich möchte Zeilen als 'dupliziert' basierend auf diesen Kriterien betrachten: < /p>
[list]
[*] Wenn die Levenshtein -String -Bearbeitungsentfernung zwischen zwei Zeilen von englischen Einträgen unter einem Schwellenwert liegt, und das Spanier ist ein Duplicate. Zeilen 0 und 1 haben eine englische Bearbeitungsentfernung von 1, und das Spanier ist ein genaues Übereinstimmung < /li>
< /ul>
< /li>
Wenn das Englisch von zwei Zeilen eine genaue Übereinstimmung ist, und die spanischen Einträge eine Überlappung von ungleich Null haben, wenn sie auf _ < /code> _ < /code> sind. Zeilen 0 und 2 passen in englischer Sprache und row0 'Hola'.split (' _ ') -> [' Hola ']