Wie extrahiere ich alle doppelten Zeilen mit einer Bedingung in einem Polars -Datenrahmen richtig? - Programmiererforum

Wie extrahiere ich alle doppelten Zeilen mit einer Bedingung in einem Polars -Datenrahmen richtig? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie extrahiere ich alle doppelten Zeilen mit einer Bedingung in einem Polars -Datenrahmen richtig?

Post by Anonymous » 21 May 2025, 15:50

Bei einem Polars -Datenframe wird ich alle doppelten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel: < /p>

Code: Select all

import polars as pl

df = pl.DataFrame({
"name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
"city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
"age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error

Dies führt jedoch zu einem Fehler:

SchemaError: Die Serie von Typ -Objekten kann jedoch nicht packen. Realität, es ist eine booleale -serie.

Code: Select all

df.filter((pl.col("city") == "NY") & (df.is_duplicated()))  # works!

korrekt Ausgänge:

Code: Select all

shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘
< /code>
Ich verstehe, dass der optimale Ansatz beim Filtern für Duplikate basierend auf einer Teilmenge von Spalten darin bestehtdf.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY"))  # works< /code>
, was mit der zusätzlichen Filterbedingung gut funktioniert.df.filter(df.drop("col1", "col2", "col3").is_duplicated())

Was gut funktioniert und viel bequemer ist, als alle 37 Spalten in einem pl.struct zu schreiben. Dies bricht jedoch beim Hinzufügen einer zusätzlichen Filterbedingung nach rechts, , jedoch nicht links :

Code: Select all

df.filter(
(df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
)  # breaks!

df.filter(
(pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
)  # works!

Warum ist die Reihenfolge von Prädikaten (Serie & Expression vs Expression & Serie) in .Filter () In diesem Fall ist dieses beabsichtigte Verhalten in Polaren oder einem Fehler?>

1747835443

Anonymous

Bei einem Polars -Datenframe wird ich alle doppelten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel: < /p>
[code]import polars as pl

df = pl.DataFrame({
"name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
"city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
"age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error
[/code]
Dies führt jedoch zu einem Fehler: 

SchemaError: Die Serie von Typ -Objekten kann jedoch nicht packen. Realität, es ist eine booleale  -serie.[code]df.filter((pl.col("city") == "NY") & (df.is_duplicated()))  # works![/code] korrekt Ausgänge: 
[code]shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘
< /code>
Ich verstehe, dass der optimale Ansatz beim Filtern für Duplikate basierend auf einer Teilmenge von Spalten darin bestehtdf.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY"))  # works< /code>
, was mit der zusätzlichen Filterbedingung gut funktioniert.df.filter(df.drop("col1", "col2", "col3").is_duplicated())[/code]
Was gut funktioniert und viel bequemer ist, als alle 37 Spalten in einem pl.struct  zu schreiben. Dies bricht jedoch beim Hinzufügen einer zusätzlichen Filterbedingung nach rechts, , jedoch nicht links : 
[code]df.filter(
(df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
)  # breaks!

df.filter(
(pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
)  # works!
[/code]
 [b] Warum ist [/b]  die Reihenfolge von Prädikaten (Serie & Expression vs Expression & Serie) in .Filter ()  In diesem Fall ist dieses beabsichtigte Verhalten in Polaren oder einem Fehler?>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie extrahiere ich ein Substring aus einer Spalte in einem Datenrahmen, das in der Spalte aus einem anderen Datenrahmen

Last post by Anonymous « 25 Apr 2025, 09:21
Posted in Python

by Anonymous » 25 Apr 2025, 09:21 » in Python

Ich habe eine Lösung aus meinem Problem gefunden, aber es ist eindeutig die dumm und ineffizienteste. Ich hatte gehofft, dass mir jemand bei einer richtigen Lösung helfen könnte.
Ich habe zwei...

0 Replies

15 Views

Last post by Anonymous
25 Apr 2025, 09:21
Wie kann ich in einem Datenrahmen in Pandas ein Kreuz-TAB von zwei Spalten in einem Datenrahmen erstellen und eine Gesam

Last post by Anonymous « 01 Mar 2025, 15:44
Posted in Python

by Anonymous » 01 Mar 2025, 15:44 » in Python

Ich habe einen Datenrahmen aus einer CSV-Datei erstellt und versuche jetzt, ein Kreuz-TAB von zwei Spalten ( Personal_status und Geschlecht ) zu erstellen. Die Ausgabe sollte so aussehen,...

0 Replies

19 Views

Last post by Anonymous
01 Mar 2025, 15:44
Wie erstelle ich einen neuen Datenrahmen, der alle Daten von einem anderen kopiert, bei denen der neue alle Werte mit -9

Last post by Anonymous « 25 Feb 2025, 23:06
Posted in Python

by Anonymous » 25 Feb 2025, 23:06 » in Python

Ich habe einen Datenrahmen von 10899 Zeilen × 32 Spalten, in denen viele Zellen mit Daten enthalten sind, die mit -9 beginnen. z.B. -99.0, -9, -9.678, etc.
Der Code, den ich verwendet habe, habe...

0 Replies

17 Views

Last post by Anonymous
25 Feb 2025, 23:06
Wie erstelle ich einen neuen Datenrahmen, der alle Daten von einem anderen kopiert, bei denen der neue alle Werte mit -9

Last post by Anonymous « 27 Feb 2025, 02:27
Posted in Python

by Anonymous » 27 Feb 2025, 02:27 » in Python

Ich habe einen Datenrahmen von 10899 Zeilen × 32 Spalten, in denen viele Zellen mit Daten enthalten sind, die mit -9 beginnen. z.B. -99.0, -9, -9.678 usw.
Wie kann ich einen neuen Datenrahmen aus...

0 Replies

15 Views

Last post by Anonymous
27 Feb 2025, 02:27
Was ist der Unterschied zwischen polars.collect_all und polars.lazyframe.collect

Last post by Anonymous « 17 Mar 2025, 14:26
Posted in Python

by Anonymous » 17 Mar 2025, 14:26 » in Python

Beginnend mit dem folgenden Beispiel:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index,...

0 Replies

8 Views

Last post by Anonymous
17 Mar 2025, 14:26

Return to “Python”