Wie generiert man einen eindeutigen temporären Spaltennamen zur konfliktfreien Verwendung in einem Polars-Datenrahmen? - Programmiererforum

Wie generiert man einen eindeutigen temporären Spaltennamen zur konfliktfreien Verwendung in einem Polars-Datenrahmen? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie generiert man einen eindeutigen temporären Spaltennamen zur konfliktfreien Verwendung in einem Polars-Datenrahmen?

Report
Quote

Post by Anonymous » 31 Oct 2025, 23:32

Ich habe eine benutzerdefinierte Funktion, die einige Datenbereinigungen für einen polaren DataFrame durchführt. Aus Effizienzgründen speichere ich einige Ergebnisse in der Mitte zwischen und entferne sie am Ende.
Das ist meine Funktion:

Code: Select all

import polars as pl

def clean_data(df, cols):
return (
df.with_columns(pl.mean(col).alias(f"__{col}_mean") for col in cols)
.with_columns(
pl.when(pl.col(col) < pl.col(f"__{col}_mean") * 3 / 4)
.then(pl.col(f"__{col}_mean") * 3 / 4)
.when(pl.col(col) > pl.col(f"__{col}_mean") * 5 / 4)
.then(pl.col(f"__{col}_mean") * 5 / 4)
.otherwise(pl.col(col))
.alias(col)
for col in cols
)
.select(pl.exclude(f"__{col}_mean" for col in cols))
)

Es funktioniert gut für „normale“ Eingaben:

Code: Select all

df = pl.DataFrame(
{
"a": [1, 2, 3, 4, 5, 12, 28],
"a2": [1, 2, 3, 4, 5, 6, 7],
}
)

clean_data(df, ["a", "a2"])

Code: Select all

shape: (7, 2)
┌──────────┬─────┐
│ a        ┆ a2  │
│ ---      ┆ --- │
│ f64      ┆ f64 │
╞══════════╪═════╡
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 4.0 │
│ 5.892857 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
└──────────┴─────┘

Es besteht jedoch die Möglichkeit, dass der Name meiner zwischengespeicherten Spalten mit dem Namen von Spalten in Konflikt steht, die in den Benutzereingaben vorhanden sind, zum Beispiel:

Code: Select all

df = pl.DataFrame(
{
"a": [1, 2, 3, 4, 5, 12, 28],
"a2": [1, 2, 3, 4, 5, 6, 7],
"__a_mean": [1, 1, 1, 1, 1, 1, 1],
}
)

clean_data(df, ["a", "a2"])

Code: Select all

shape: (7, 2)
┌──────────┬─────┐
│ a        ┆ a2  │
│ ---      ┆ --- │
│ f64      ┆ f64 │
╞══════════╪═════╡
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 4.0 │
│ 5.892857 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
└──────────┴─────┘

Wie Sie sehen können, hat das Ergebnis die Spalte __a_mean im ursprünglichen DataFrame maskiert.
Gibt es eine Möglichkeit, temporäre Spalten mitten in Berechnungen anzuhängen und sicherzustellen, dass generierte temporäre Spaltennamen nicht im ursprünglichen DataFrame vorhanden sind?
Gibt es alternativ eine Möglichkeit, meine obige Funktion zu implementieren, ohne Ergebnisse zwischenzuspeichern und ohne Leistungseinbußen zu machen?

1761949970

Anonymous

Ich habe eine benutzerdefinierte Funktion, die einige Datenbereinigungen für einen polaren DataFrame durchführt. Aus Effizienzgründen speichere ich einige Ergebnisse in der Mitte zwischen und entferne sie am Ende.
Das ist meine Funktion:
[code]import polars as pl

def clean_data(df, cols):
return (
df.with_columns(pl.mean(col).alias(f"__{col}_mean") for col in cols)
.with_columns(
pl.when(pl.col(col) < pl.col(f"__{col}_mean") * 3 / 4)
.then(pl.col(f"__{col}_mean") * 3 / 4)
.when(pl.col(col) > pl.col(f"__{col}_mean") * 5 / 4)
.then(pl.col(f"__{col}_mean") * 5 / 4)
.otherwise(pl.col(col))
.alias(col)
for col in cols
)
.select(pl.exclude(f"__{col}_mean" for col in cols))
)
[/code]
Es funktioniert gut für „normale“ Eingaben:
[code]df = pl.DataFrame(
{
"a": [1, 2, 3, 4, 5, 12, 28],
"a2": [1, 2, 3, 4, 5, 6, 7],
}
)

clean_data(df, ["a", "a2"])
[/code]
[code]shape: (7, 2)
┌──────────┬─────┐
│ a        ┆ a2  │
│ ---      ┆ --- │
│ f64      ┆ f64 │
╞══════════╪═════╡
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 4.0 │
│ 5.892857 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
└──────────┴─────┘
[/code]
Es besteht jedoch die Möglichkeit, dass der Name meiner zwischengespeicherten Spalten mit dem Namen von Spalten in Konflikt steht, die in den Benutzereingaben vorhanden sind, zum Beispiel:
[code]df = pl.DataFrame(
{
"a": [1, 2, 3, 4, 5, 12, 28],
"a2": [1, 2, 3, 4, 5, 6, 7],
"__a_mean": [1, 1, 1, 1, 1, 1, 1],
}
)

clean_data(df, ["a", "a2"])
[/code]
[code]shape: (7, 2)
┌──────────┬─────┐
│ a        ┆ a2  │
│ ---      ┆ --- │
│ f64      ┆ f64 │
╞══════════╪═════╡
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 3.0 │
│ 5.892857 ┆ 4.0 │
│ 5.892857 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
│ 9.821429 ┆ 5.0 │
└──────────┴─────┘
[/code]
Wie Sie sehen können, hat das Ergebnis die Spalte __a_mean im ursprünglichen DataFrame maskiert.
Gibt es eine Möglichkeit, temporäre Spalten mitten in Berechnungen anzuhängen und sicherzustellen, dass generierte temporäre Spaltennamen nicht im ursprünglichen DataFrame vorhanden sind?
Gibt es alternativ eine Möglichkeit, meine obige Funktion zu implementieren, ohne Ergebnisse zwischenzuspeichern und ohne Leistungseinbußen zu machen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann ich einen großen Polars-Datenrahmen partitionieren und jeden einzelnen Datenrahmen parallel in einer CSV-Datei

Last post by Anonymous « 29 Oct 2025, 12:17
Posted in Python

by Anonymous » 29 Oct 2025, 12:17 » in Python

Ich habe einen großen Polars-Datenrahmen mit vielen Gruppen. Jetzt möchte ich den Datenrahmen nach Gruppen partitionieren und alle Unterdatenrahmen speichern. Ich kann das ganz einfach wie folgt...

0 Replies

15 Views

Last post by Anonymous
29 Oct 2025, 12:17
Warum erhalte ich den Spaltennamen, wenn ich bind_param verwende, um den Spaltennamen anzugeben? [Duplikat]

Last post by Anonymous « 11 Jan 2026, 16:38
Posted in Php

by Anonymous » 11 Jan 2026, 16:38 » in Php

Kann mir jemand sagen, was ich falsch mache?
Wenn ich das ausführe und abrufe, erhalte ich das richtige Ergebnis.
$message = '100';
if($stmt = $mysqli->prepare( select english from table where...

0 Replies

0 Views

Last post by Anonymous
11 Jan 2026, 16:38
Wie kann ich in einem Datenrahmen in Pandas ein Kreuz-TAB von zwei Spalten in einem Datenrahmen erstellen und eine Gesam

Last post by Anonymous « 01 Mar 2025, 15:44
Posted in Python

by Anonymous » 01 Mar 2025, 15:44 » in Python

Ich habe einen Datenrahmen aus einer CSV-Datei erstellt und versuche jetzt, ein Kreuz-TAB von zwei Spalten ( Personal_status und Geschlecht ) zu erstellen. Die Ausgabe sollte so aussehen,...

0 Replies

62 Views

Last post by Anonymous
01 Mar 2025, 15:44
Wie extrahiere ich ein Substring aus einer Spalte in einem Datenrahmen, das in der Spalte aus einem anderen Datenrahmen

Last post by Anonymous « 25 Apr 2025, 09:21
Posted in Python

by Anonymous » 25 Apr 2025, 09:21 » in Python

Ich habe eine Lösung aus meinem Problem gefunden, aber es ist eindeutig die dumm und ineffizienteste. Ich hatte gehofft, dass mir jemand bei einer richtigen Lösung helfen könnte.
Ich habe zwei...

0 Replies

70 Views

Last post by Anonymous
25 Apr 2025, 09:21
Wie kann ich einen temporären Bogen an derselben Stelle wie ein Segment von Polyline -Bogen in BRICSCAD erstellen?

Last post by Anonymous « 15 May 2025, 18:31
Posted in C#

by Anonymous » 15 May 2025, 18:31 » in C#

Ich bin verwechselt mit den Werten hier in BRICSCAD:

if (pline.GetSegmentType(i) == _AcDb.SegmentType.Arc)
{
_AcGe.CircularArc2d arcSeg = pline.GetArcSegment2dAt(i);

_AcGe.Point3d center = new...

0 Replies

37 Views

Last post by Anonymous
15 May 2025, 18:31

Return to “Python”