Gruppen-by-Spalte in Polars DataFrame Inneren mit _columns

Gruppen-by-Spalte in Polars DataFrame Inneren mit _columns ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Gruppen-by-Spalte in Polars DataFrame Inneren mit _columns

Report
Quote

Post by Anonymous » 14 Apr 2025, 19:09

Ich habe den folgenden Datenrahmen: < /p>

Code: Select all

import polars as pl

df = pl.DataFrame({
'ID': [1, 1, 5, 5, 7, 7, 7],
'YEAR': [2025, 2025, 2023, 2024, 2020, 2021, 2021]
})
shape: (7, 2)
┌─────┬──────┐
│ ID  ┆ YEAR │
│ --- ┆ ---  │
│ i64 ┆ i64  │
╞═════╪══════╡
│ 1   ┆ 2025 │
│ 1   ┆ 2025 │
│ 5   ┆ 2023 │
│ 5   ┆ 2024 │
│ 7   ┆ 2020 │
│ 7   ┆ 2021 │
│ 7   ┆ 2021 │
└─────┴──────┘
< /code>
Jetzt möchte ich die eindeutige Anzahl von Jahren pro ID erhalten, d. H. < /p>
shape: (7, 3)
┌─────┬──────┬──────────────┐
│ ID  ┆ YEAR ┆ UNIQUE_YEARS │
│ --- ┆ ---  ┆ ---          │
│ i64 ┆ i64  ┆ u32          │
╞═════╪══════╪══════════════╡
│ 1   ┆ 2025 ┆ 1            │
│ 1   ┆ 2025 ┆ 1            │
│ 5   ┆ 2023 ┆ 2            │
│ 5   ┆ 2024 ┆ 2            │
│ 7   ┆ 2020 ┆ 2            │
│ 7   ┆ 2021 ┆ 2            │
│ 7   ┆ 2021 ┆ 2            │
└─────┴──────┴──────────────┘

Ich habe also df.with_columns (pl.col ('Jahr') ausprobiert. Over ('id'). alias ('einzigartig_years')) , aber dies gibt das falsche Ergebnis. Also habe ich < /p>
ausgedacht

Code: Select all

df.join(df.group_by('ID').agg(pl.col('YEAR').unique().len().alias('UNIQUE_YEARS')), on='ID', how='left')
< /code>
Was gibt ein korrektes Ergebnis! Aber es sieht ein bisschen klobig aus und ich frage mich, ob es einen natürlicheren Weg mit _columns

und über ?

1744650566

Anonymous

Ich habe den folgenden Datenrahmen: < /p>
[code]import polars as pl

df = pl.DataFrame({
'ID': [1, 1, 5, 5, 7, 7, 7],
'YEAR': [2025, 2025, 2023, 2024, 2020, 2021, 2021]
})
shape: (7, 2)
┌─────┬──────┐
│ ID  ┆ YEAR │
│ --- ┆ ---  │
│ i64 ┆ i64  │
╞═════╪══════╡
│ 1   ┆ 2025 │
│ 1   ┆ 2025 │
│ 5   ┆ 2023 │
│ 5   ┆ 2024 │
│ 7   ┆ 2020 │
│ 7   ┆ 2021 │
│ 7   ┆ 2021 │
└─────┴──────┘
< /code>
Jetzt möchte ich die eindeutige Anzahl von Jahren pro ID erhalten, d. H. < /p>
shape: (7, 3)
┌─────┬──────┬──────────────┐
│ ID  ┆ YEAR ┆ UNIQUE_YEARS │
│ --- ┆ ---  ┆ ---          │
│ i64 ┆ i64  ┆ u32          │
╞═════╪══════╪══════════════╡
│ 1   ┆ 2025 ┆ 1            │
│ 1   ┆ 2025 ┆ 1            │
│ 5   ┆ 2023 ┆ 2            │
│ 5   ┆ 2024 ┆ 2            │
│ 7   ┆ 2020 ┆ 2            │
│ 7   ┆ 2021 ┆ 2            │
│ 7   ┆ 2021 ┆ 2            │
└─────┴──────┴──────────────┘
[/code]
Ich habe also df.with_columns (pl.col ('Jahr') ausprobiert. Over ('id'). alias ('einzigartig_years')) , aber dies gibt das falsche Ergebnis. Also habe ich < /p>
ausgedacht[code]df.join(df.group_by('ID').agg(pl.col('YEAR').unique().len().alias('UNIQUE_YEARS')), on='ID', how='left')
< /code>
Was gibt ein korrektes Ergebnis! Aber es sieht ein bisschen klobig aus und ich frage mich, ob es einen natürlicheren Weg mit _columns [/code] und über ?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Aktivieren eines SetUid -CPP -Programms zum Ausführen eines Befehls - "Gruppen" zeigt die Realuser -Gruppen anstelle ein

Last post by Anonymous « 22 Feb 2025, 01:35
Posted in C++

by Anonymous » 22 Feb 2025, 01:35 » in C++

Ich versuche, ein CPP -Programm zu schreiben, das als sudo für ein gesichtsloses Konto fungiert. Grundsätzlich möchte ich, dass der Befehl eher als gesichtsloses Konto ausgeführt wird als als der...

0 Replies

28 Views

Last post by Anonymous
22 Feb 2025, 01:35
Aktivieren eines SetUid -CPP -Programms zum Ausführen eines Befehls - "Gruppen" zeigt die Realuser -Gruppen anstelle ein

Last post by Anonymous « 22 Feb 2025, 01:35
Posted in Linux

by Anonymous » 22 Feb 2025, 01:35 » in Linux

Ich versuche, ein CPP -Programm zu schreiben, das als sudo für ein gesichtsloses Konto fungiert. Grundsätzlich möchte ich, dass der Befehl eher als gesichtsloses Konto ausgeführt wird als als der...

0 Replies

19 Views

Last post by Anonymous
22 Feb 2025, 01:35
Wie man Gruppen aus dem von Groupby produzierten Gruppen reinigt

Last post by Anonymous « 12 Mar 2025, 10:30
Posted in C#

by Anonymous » 12 Mar 2025, 10:30 » in C#

Ich habe nach beobachtbar gemacht, dass nur Änderungen für bestimmte Ressourcen-ID-Filter filtern:
var valueChangesObs = events
.GroupBy(e => e.ResourceId)
.SelectMany(e => e.DistinctUntilChanged(e...

0 Replies

18 Views

Last post by Anonymous
12 Mar 2025, 10:30
Ist die Zeilenreihenfolge bei der Verwendung von polars.scan_csv und polars.scan_parquet mit der Liste der Dateien garan

Last post by Anonymous « 11 Jul 2025, 17:45
Posted in Python

by Anonymous » 11 Jul 2025, 17:45 » in Python

Wenn ich eine Liste von Dateien habe, l = mit den Größen S1, S2, ..., Sn und ich erstelle einen df mit df = pl.scan_csv (l, ...) oder df = pl.Scan_Parquet (l, l. d.h. ?

0 Replies

0 Views

Last post by Anonymous
11 Jul 2025, 17:45
Was ist der Unterschied zwischen polars.collect_all und polars.lazyframe.collect

Last post by Anonymous « 17 Mar 2025, 14:26
Posted in Python

by Anonymous » 17 Mar 2025, 14:26 » in Python

Beginnend mit dem folgenden Beispiel:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index,...

0 Replies

18 Views

Last post by Anonymous
17 Mar 2025, 14:26

Return to “Python”