Wie extrahiere ich alle duplizierten Zeilen mit einer Bedingung in einem Polars DataFrame richtig? - Programmiererforum

Wie extrahiere ich alle duplizierten Zeilen mit einer Bedingung in einem Polars DataFrame richtig? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie extrahiere ich alle duplizierten Zeilen mit einer Bedingung in einem Polars DataFrame richtig?

Report
Quote

Post by Anonymous » 31 Oct 2025, 23:46

Bei einem Polardatenrahmen möchte ich alle duplizierten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:

Code: Select all

import polars as pl

df = pl.DataFrame({
"name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
"city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
"age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error

Dies führt jedoch zu einem Fehler:

SchemaError: Kann Serie vom Typ Objekt nicht in bool entpacken

Was andeutet, dass df.is_duplicated() eine Reihe vom Typ Objekt zurückgibt, aber in Wirklichkeit ist es ein Boolescher Wert Serie.
Überraschenderweise funktioniert es, wenn man die Prädikate neu anordnet, indem man den Ausdruck zuerst platziert (aber warum?):

Code: Select all

df.filter((pl.col("city") == "NY") & (df.is_duplicated()))  # works!

gibt korrekt aus:

Code: Select all

shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘

Ich verstehe, dass der optimale Ansatz beim Filtern nach Duplikaten basierend auf einer Teilmenge von Spalten die Verwendung von pl.struct ist, etwa:

Code: Select all

df.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY"))  # works

Was mit der zusätzlichen Filterbedingung gut funktioniert.
Allerdings verwende ich absichtlich nicht pl.struct, da mein echter Datenrahmen 40 Spalten hat und ich anhand aller Spalten außer drei nach doppelten Zeilen suchen möchte, also habe ich Folgendes getan:

Code: Select all

df.filter(df.drop("col1", "col2", "col3").is_duplicated())

Das funktioniert gut und ist viel praktischer, als alle 37 Spalten in eine pl.struct zu schreiben. Dies funktioniert jedoch nicht, wenn rechts eine zusätzliche Filterbedingung hinzugefügt wird, jedoch nicht links:

Code: Select all

df.filter(
(df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
)  # breaks!

df.filter(
(pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
)  # works!

Warum spielt in diesem Fall die Reihenfolge der Prädikate (Serie & Ausdruck vs. Ausdruck & Serie) in .filter() eine Rolle?
Ist dieses Verhalten in Polars beabsichtigt oder ein Fehler?

1761950762

Anonymous

Bei einem Polardatenrahmen möchte ich alle duplizierten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
[code]import polars as pl

df = pl.DataFrame({
"name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
"city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
"age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error
[/code]
Dies führt jedoch zu einem Fehler:

SchemaError: Kann Serie vom Typ Objekt nicht in bool entpacken

Was andeutet, dass df.is_duplicated() eine Reihe vom Typ Objekt zurückgibt, aber in Wirklichkeit ist es ein Boolescher Wert Serie.
Überraschenderweise funktioniert es, wenn man die Prädikate neu anordnet, indem man den Ausdruck zuerst platziert (aber warum?):

[code]df.filter((pl.col("city") == "NY") & (df.is_duplicated()))  # works![/code] gibt korrekt aus:
[code]shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘
[/code]
Ich verstehe, dass der optimale Ansatz beim Filtern nach Duplikaten basierend auf einer Teilmenge von Spalten die Verwendung von pl.struct ist, etwa:

[code]df.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY"))  # works[/code]
Was mit der zusätzlichen Filterbedingung gut funktioniert.
Allerdings verwende ich absichtlich nicht pl.struct, da mein echter Datenrahmen 40 Spalten hat und ich anhand aller Spalten außer drei nach doppelten Zeilen suchen möchte, also habe ich Folgendes getan:

[code]df.filter(df.drop("col1", "col2", "col3").is_duplicated())[/code]
Das funktioniert gut und ist viel praktischer, als alle 37 Spalten in eine pl.struct zu schreiben. Dies funktioniert jedoch nicht, wenn rechts eine zusätzliche Filterbedingung hinzugefügt wird, jedoch nicht links:
[code]df.filter(
(df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
)  # breaks!

df.filter(
(pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
)  # works!
[/code]
[b]Warum[/b] spielt in diesem Fall die Reihenfolge der Prädikate (Serie & Ausdruck vs. Ausdruck & Serie) in .filter() eine Rolle?
Ist dieses Verhalten in Polars beabsichtigt oder ein Fehler?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie extrahiere ich alle doppelten Zeilen mit einer Bedingung in einem Polars -Datenrahmen richtig?

Last post by Anonymous « 21 May 2025, 15:50
Posted in Python

by Anonymous » 21 May 2025, 15:50 » in Python

Bei einem Polars -Datenframe wird ich alle doppelten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
import polars as pl

df = pl.DataFrame({
name : ,...

0 Replies

28 Views

Last post by Anonymous
21 May 2025, 15:50
Verwenden einer Liste von Werten, um Zeilen aus Polars DataFrame auszuwählen

Last post by Anonymous « 07 Apr 2025, 04:01
Posted in Python

by Anonymous » 07 Apr 2025, 04:01 » in Python

Ich habe unten einen Polars -Datenframe:
import polars as pl
df = pl.DataFrame({ a : , b : })

>>> df
a b
i64 i64
1 4
2 3
3 2

Ich kann basierend auf einem bestimmten Wert subset:
x = df[df ==...

0 Replies

46 Views

Last post by Anonymous
07 Apr 2025, 04:01
Polars Lazy Dataframe benutzerdefinierte Funktion über Zeilen

Last post by Anonymous « 27 Oct 2025, 14:56
Posted in Python

by Anonymous » 27 Oct 2025, 14:56 » in Python

Ich versuche, eine benutzerdefinierte Funktion zeilenweise auf einem Lazy-Datenrahmen auszuführen.
Die Funktion selbst spielt keine Rolle, daher verwende ich Softmax als Ersatz. Wichtig dabei ist...

0 Replies

22 Views

Last post by Anonymous
27 Oct 2025, 14:56
Wie füge ich mit Javascript ein Suffix zu duplizierten Arrays von Objekten hinzu?

Last post by Guest « 16 Jan 2025, 03:14
Posted in JavaScript

by Guest » 16 Jan 2025, 03:14 » in JavaScript

Ich habe folgendes Array von Objekten
let views = ;

Wenn weitere Elemente hinzugefügt werden, eines nach dem anderen mit dem vorhandenen Namen, zum Beispiel ein weiteres „A View“ und ein weiteres...

0 Replies

64 Views

Last post by Guest
16 Jan 2025, 03:14
Wie schließe ich Zeilen anhand einer dynamischen Bedingung in einer PYSPARK -Fensterfunktion aus?

Last post by Anonymous « 17 Mar 2025, 14:30
Posted in Python

by Anonymous » 17 Mar 2025, 14:30 » in Python

Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. Ich möchte jedoch Zeilen ausschließen, bei denen eine bestimmte...

0 Replies

33 Views

Last post by Anonymous
17 Mar 2025, 14:30

Return to “Python”