Pandas - Übereinstimmung Zeilen als Duplikate, die auf den Kriterien basieren

Pandas - Übereinstimmung Zeilen als Duplikate, die auf den Kriterien basieren ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Pandas - Übereinstimmung Zeilen als Duplikate, die auf den Kriterien basieren

Report
Quote

Post by Anonymous » 02 Apr 2025, 11:31

Ich habe mehrere andere verwandte Fragen zu Pandas gestöbert und Dokumentation für GroupBy und dupliziert , aber ich kann keinen Weg finden, alle Teile in Pandas zusammen zu passen. Ich könnte dies tun, indem ich mehrmals über die Zeilen in meinem CSV iterierte und paarweise Vergleiche durchführen, aber es scheint, als sollte ich in Pandas in der Lage sein. Wenn zwei Zeilen "Duplikate" voneinander sind, fusionieren Sie die Spalten 0 und 1 der ersten Zeile und verwenden Sie SUM () für den Rest der Spalten.
Ich habe eine CSV

Code: Select all

   English Spanish    Count AF ... # other numerical columns
0 'hello' 'hola'      23    0
1 'helo'  'hola'      2     1
2 'hello' 'hola_a'    1     0
3 'hallo' 'a_aureola' 1     1
...
< /code>
Ich möchte Zeilen als 'dupliziert' basierend auf diesen Kriterien betrachten: < /p>
[list]
[*] Wenn die Levenshtein -String -Bearbeitungsentfernung zwischen zwei Zeilen von englischen Einträgen unter einem Schwellenwert liegt, und das Spanier ist ein Duplicate. Zeilen 0 und 1 haben eine englische Bearbeitungsentfernung von 1, und das Spanier ist ein genaues Übereinstimmung < /li>
< /ul>
< /li>
 Wenn das Englisch von zwei Zeilen eine genaue Übereinstimmung ist, und die spanischen Einträge eine Überlappung von ungleich Null haben, wenn sie auf _ < /code> _ < /code> sind. Zeilen 0 und 2 passen in englischer Sprache und row0 'Hola'.split (' _ ') -> [' Hola ']

hat eine Überlappung mit Row2' Hola_a'.split ('_') -> ['Hola', 'A'] Da beide Listen 'Hola' [/list]

1743586265

Anonymous

Ich habe mehrere andere verwandte Fragen zu Pandas gestöbert und Dokumentation für GroupBy  und dupliziert , aber ich kann keinen Weg finden, alle Teile in Pandas zusammen zu passen. Ich könnte dies tun, indem ich mehrmals über die Zeilen in meinem CSV iterierte und paarweise Vergleiche durchführen, aber es scheint, als sollte ich in Pandas in der Lage sein. Wenn zwei Zeilen "Duplikate" voneinander sind, fusionieren Sie die Spalten 0 und 1 der ersten Zeile und verwenden Sie SUM ()  für den Rest der Spalten. 
Ich habe eine CSV[code]   English Spanish    Count AF ... # other numerical columns
0 'hello' 'hola'      23    0
1 'helo'  'hola'      2     1
2 'hello' 'hola_a'    1     0
3 'hallo' 'a_aureola' 1     1
...
< /code>
Ich möchte Zeilen als 'dupliziert' basierend auf diesen Kriterien betrachten: < /p>
[list]
[*] Wenn die Levenshtein -String -Bearbeitungsentfernung zwischen zwei Zeilen von englischen Einträgen unter einem Schwellenwert liegt, und das Spanier ist ein Duplicate. Zeilen 0 und 1 haben eine englische Bearbeitungsentfernung von 1, und das Spanier ist ein genaues Übereinstimmung < /li>
< /ul>
< /li>
 Wenn das Englisch von zwei Zeilen eine genaue Übereinstimmung ist, und die spanischen Einträge eine Überlappung von ungleich Null haben, wenn sie auf _ < /code> _ < /code> sind. Zeilen 0 und 2 passen in englischer Sprache und row0 'Hola'.split (' _ ') -> [' Hola '] [/code] hat eine Überlappung mit Row2' Hola_a'.split ('_') -> ['Hola', 'A']  Da beide Listen 'Hola'                 [/list]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann man ein 2D -Array dynamisch in Kisten basieren, die auf umgekehrter Flächendichte basieren?

Last post by Anonymous « 13 May 2025, 00:24
Posted in Python

by Anonymous » 13 May 2025, 00:24 » in Python

Kontext:
Ich habe ein 2D-Array (Größe N x m ), nennen wir es u , wobei jede Zelle einen nicht negativen Wert k ≥ 0 enthält, der an diesem Punkt eine Dichte darstellt. Ich möchte das Array...

0 Replies

12 Views

Last post by Anonymous
13 May 2025, 00:24
MySQL -Abfrage, die Duplikate außer den ersten und letzten Zeilen für jeden Benutzer löscht

Last post by Anonymous « 03 Mar 2025, 00:27
Posted in MySql

by Anonymous » 03 Mar 2025, 00:27 » in MySql

Ich habe wöchentlich eine Entpassung von Telefonnummer -Zuordnung genommen und die Daten dann in eine MySQL -Tabelle importiert. Ein Datensatz hätte mindestens die folgenden relevanten Informationen:...

0 Replies

14 Views

Last post by Anonymous
03 Mar 2025, 00:27
Erstellen Sie Duplikate von Zeilen basierend auf Werten in einer anderen Spalte

Last post by Anonymous « 02 Oct 2025, 23:39
Posted in Python

by Anonymous » 02 Oct 2025, 23:39 » in Python

Ich versuche, ein Histogramm einiger Daten in Polaren zu erstellen. Als Teil meines Histogrammcode muss ich einige Zeilen duplizieren. Ich habe eine Wertespalte, in der jede Zeile auch ein Gewicht...

0 Replies

0 Views

Last post by Anonymous
02 Oct 2025, 23:39
Filter -CSV -Zeilen basierend auf der Anzahl der Spaltenwert basieren

Last post by Anonymous « 02 Apr 2025, 11:51
Posted in Python

by Anonymous » 02 Apr 2025, 11:51 » in Python

Ich bin sehr neu in Python und jetzt arbeite ich an einer Aufgabe, bei der ich Zeilen speichern muss, die weniger als K -Zeiten aus einer CSV -Datei erscheint. Die erste Spalte ist der Teil, den ich...

0 Replies

14 Views

Last post by Anonymous
02 Apr 2025, 11:51
Pandas neu auf neue zwei Spalten basieren andere Spalte

Last post by Anonymous « 19 Feb 2025, 18:22
Posted in Python

by Anonymous » 19 Feb 2025, 18:22 » in Python

Ich habe eine Pandas -Tabelle, in der ich eine neue Spalte erstellen und Daten basierend auf anderen Spaltenwerten füllen möchte. Ich möchte auch wissen, ob der Wert neuer Spalten aktualisiert wird...

0 Replies

39 Views

Last post by Anonymous
19 Feb 2025, 18:22

Return to “Python”