Vergleich von Datenrahmen - Programmiererforum

Vergleich von Datenrahmen ⇐ Python

1 post • Page 1 of 1

Anonymous

Post by Anonymous » 25 Feb 2025, 22:39

Ziel ist es, zwei PANDAS -Datenframes unter Berücksichtigung einer Fehlerquote zu vergleichen.
Um das Problem zu reproduzieren
import pandas as pd
< /code>
Fall eins - Gleiche Datendatenfreams < /h3>
df1 = pd.DataFrame({"A": [1,1,1], "B": [2,2,2], "C": [3,3,3]})
df2 = pd.DataFrame({"A": [1,1,1], "B": [2,2,2], "C": [3,3,3]})
print(df1.compare(df2, result_names=('df1', 'df2')))

# The result is an empty dataframe
Empty DataFrame
Columns: []
Index: []
< /code>
Fall Zwei - verschiedene Datendatenfrüchte < /h3>
df1 = pd.DataFrame({"A": [1,1,1], "B": [2,2,2], "C": [3,3,3]})
df2 = pd.DataFrame({"A": [1,1,1], "B": [2,2.2,2], "C": [3,3,3]}) # Note that the second B value is 2.2
print(df1.compare(df2, result_names=('df1', 'df2')))

# The result is a dataframe showing differences
B
df1 df2
1 2.0 2.2
< /code>
Das Problem ist, dass ich möchte, dass es nur Unterschiede mehr als 0,5 < /p>
wie ich es erreicht habe. < /h3>
threshold = 0.5
df3 = df1.melt().reset_index().merge(df2.melt().reset_index(), on="index")
df3["diff"] = (df3["value_x"] - df3["value_y"]).abs()
print(df3.loc[df3["diff"] > threshold])

# The result is an empty dataframe
Empty DataFrame
Columns: [index, variable_x, value_x, variable_y, value_y, diff]
Index: []
< /code>
Gibt es einen besseren Weg, dies zu tun? Es dauert viel Zeit für einen riesigen df.
[*] Ich bin geöffnet, um andere Bibliotheken als Numpy zu verwenden.

1740519543

Anonymous

Ziel ist es, zwei PANDAS -Datenframes unter Berücksichtigung einer Fehlerquote zu vergleichen. 
Um das [url=viewtopic.php?t=11587]Problem[/url] zu reproduzieren
import pandas as pd
< /code>
 Fall eins - Gleiche Datendatenfreams < /h3>
df1 = pd.DataFrame({"A": [1,1,1], "B": [2,2,2], "C": [3,3,3]})
df2 = pd.DataFrame({"A": [1,1,1], "B": [2,2,2], "C": [3,3,3]})
print(df1.compare(df2, result_names=('df1', 'df2')))

# The result is an empty dataframe
Empty DataFrame
Columns: []
Index: []
< /code>
 Fall Zwei - verschiedene Datendatenfrüchte < /h3>
df1 = pd.DataFrame({"A": [1,1,1], "B": [2,2,2], "C": [3,3,3]})
df2 = pd.DataFrame({"A": [1,1,1], "B": [2,2.2,2], "C": [3,3,3]}) # Note that the second B value is 2.2
print(df1.compare(df2, result_names=('df1', 'df2')))

# The result is a dataframe showing differences
B
df1  df2
1  2.0  2.2
< /code>
Das [url=viewtopic.php?t=11587]Problem[/url] ist, dass ich möchte, dass es nur Unterschiede mehr als 0,5 < /p>
 wie ich es erreicht habe. < /h3>
threshold = 0.5
df3 = df1.melt().reset_index().merge(df2.melt().reset_index(), on="index")
df3["diff"] = (df3["value_x"] - df3["value_y"]).abs()
print(df3.loc[df3["diff"] > threshold])

# The result is an empty dataframe
Empty DataFrame
Columns: [index, variable_x, value_x, variable_y, value_y, diff]
Index: []
< /code>
Gibt es einen besseren Weg, dies zu tun? Es dauert viel Zeit für einen riesigen df. 
[*] Ich bin geöffnet, um andere Bibliotheken als Numpy zu verwenden.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann ich in einem Datenrahmen in Pandas ein Kreuz-TAB von zwei Spalten in einem Datenrahmen erstellen und eine Gesam

Last post by Anonymous « 01 Mar 2025, 15:44
Posted in Python

by Anonymous » 01 Mar 2025, 15:44 » in Python

Ich habe einen Datenrahmen aus einer CSV-Datei erstellt und versuche jetzt, ein Kreuz-TAB von zwei Spalten ( Personal_status und Geschlecht ) zu erstellen. Die Ausgabe sollte so aussehen,...

0 Replies

21 Views

Last post by Anonymous
01 Mar 2025, 15:44
Vergleiche zwei Datenrahmen und das Fehlen des Fehlenden in jedem Datenrahmen in Python

Last post by Anonymous « 09 Apr 2025, 04:10
Posted in Python

by Anonymous » 09 Apr 2025, 04:10 » in Python

Ich habe zwei Datenrahmen, die genau die gleiche Datenstruktur haben. Ich muss sie vergleichen, um festzustellen, ob sie Unterschiede in den Datensätzen haben, da ein Spaltenwert unterschiedlich ist....

0 Replies

7 Views

Last post by Anonymous
09 Apr 2025, 04:10
Wie extrahiere ich ein Substring aus einer Spalte in einem Datenrahmen, das in der Spalte aus einem anderen Datenrahmen

Last post by Anonymous « 25 Apr 2025, 09:21
Posted in Python

by Anonymous » 25 Apr 2025, 09:21 » in Python

Ich habe eine Lösung aus meinem Problem gefunden, aber es ist eindeutig die dumm und ineffizienteste. Ich hatte gehofft, dass mir jemand bei einer richtigen Lösung helfen könnte.
Ich habe zwei...

0 Replies

15 Views

Last post by Anonymous
25 Apr 2025, 09:21
Vergleich für einen bestimmten Wert in einer Liste von Objekten, die Java 8 -Streams unter Verwendung von Java 8 -Stream

Last post by Anonymous « 11 Feb 2025, 22:46
Posted in Java

by Anonymous » 11 Feb 2025, 22:46 » in Java

Ich habe Liste
.
class Product{

String productName;
int mfgYear;
int expYear;
}

int testYear = 2019;
List
productList = getProductList();

Ich habe hier eine Liste von Produkten. Code>, der im...

0 Replies

17 Views

Last post by Anonymous
11 Feb 2025, 22:46
Vergleich von .loc/.iloc mit Tupeln und verketteter Indizierung

Last post by Guest « 31 Dec 2024, 14:50
Posted in Python

by Guest » 31 Dec 2024, 14:50 » in Python

import pandas as pd

# Creating a DataFrame with some sample data
data = {
'Name': ,
'Age': ,
'City': ,
'Salary':
}

df = pd.DataFrame(data)

# Display the DataFrame
print(df)

I want to update...

0 Replies

21 Views

Last post by Guest
31 Dec 2024, 14:50

Return to “Python”