Berechnen Sie den expandierenden Durchschnitt pro Gruppe ohne Strom

Berechnen Sie den expandierenden Durchschnitt pro Gruppe ohne Strom ⇐ Python

1 post • Page 1 of 1

Guest

Berechnen Sie den expandierenden Durchschnitt pro Gruppe ohne Strom

Post by Guest » 12 Jan 2025, 04:16

Ziel: Berechnen Sie den expandierenden Mittelwert der Spalte „Bewertung“ für jede „Slug“-Gruppe, ohne den Wert der aktuellen Zeile (und unter Berücksichtigung der Reihenfolge, z. B. „Woche“).
Beispieldatensatz (Ausgabe ist das gewünschte Ergebnis).

Code: Select all

idx week    slug    valuation   output
0   2   slouk   -4  12.00
1   3   slouk   7   4.00
2   4   slouk   8   5.00
3   3   kenun   10  14.00
4   1   kenun   11
5   1   slouk   12
6   2   kenun   17  11.00
7   4   kenun   21  12.67

Ich habe es versucht (und bin gescheitert):

Code: Select all

# chaining
td["output"] = (
td.sort_values(by="week")
.groupby("slug")["valuation"]
.shift()
.expanding()
.mean()
.reset_index(drop=True)
)

# apply
td["output"] = (
td.sort_values(by="week")
.groupby("slug")["valuation"]
.apply(lambda x: x.shift().expanding().mean())
.reset_index(drop=True)
)

Dann bin ich über dieses verwandte Thema gestolpert und der .sort_index(level=1) hat es geschafft.
So, jetzt das Es funktioniert:

Code: Select all

td["output"] = (
td.sort_values(by="week")
.groupby("slug")["valuation"]
.apply(lambda x: x.shift().expanding().mean())
.sort_index(level=1)
.reset_index(drop=True)
)

Die „Apply“-Version funktioniert, ist jedoch bei einem großen Datensatz ziemlich langsam. Wenn ich .sort_index(level=1) mit der „Verkettungs“-Version versuche, funktioniert das immer noch nicht.
Obwohl es funktioniert, habe ich immer noch einige Punkte, die ich Ich möchte es besser verstehen:

Problem mit der Verkettung von Methoden: Wenn ich Methodenverkettung wie z td.groupby('slug')['valuation'].shift().expanding().mean() scheint ab einem bestimmten Punkt den Überblick über die Gruppierung zu verlieren. Ich frage mich, warum das passiert und wie es sich von der Verwendung von „Apply“ unterscheidet.
Indizierung und Zuweisung mit „Apply“: „Apply“ mit einer Lambda-Funktion verwenden führt den Vorgang korrekt aus, aber die resultierende Serie hat eine andere Reihenfolge als mein ursprünglicher DataFrame. Wenn ich versuche, es mit .reset_index(drop=True) wieder zuzuweisen, werden die Dinge nicht richtig ausgerichtet. Ich suche Klarheit darüber, wie dieser Neuzuweisungsprozess funktioniert.
Gibt es eine andere, effizientere Möglichkeit, das zu tun, was ich suche?< /p>

Mein Ziel ist es, ein besseres Verständnis dieser Methoden aufzubauen.

1736651772

Guest

Ziel: Berechnen Sie den expandierenden Mittelwert der Spalte „Bewertung“ für jede „Slug“-Gruppe, ohne den Wert der aktuellen Zeile (und unter Berücksichtigung der Reihenfolge, z. B. „Woche“).
Beispieldatensatz (Ausgabe ist das gewünschte Ergebnis).
[code]idx week    slug    valuation   output
0   2   slouk   -4  12.00
1   3   slouk   7   4.00
2   4   slouk   8   5.00
3   3   kenun   10  14.00
4   1   kenun   11
5   1   slouk   12
6   2   kenun   17  11.00
7   4   kenun   21  12.67
[/code]
Ich habe es versucht (und bin gescheitert):
[code]# chaining
td["output"] = (
td.sort_values(by="week")
.groupby("slug")["valuation"]
.shift()
.expanding()
.mean()
.reset_index(drop=True)
)

# apply
td["output"] = (
td.sort_values(by="week")
.groupby("slug")["valuation"]
.apply(lambda x: x.shift().expanding().mean())
.reset_index(drop=True)
)
[/code]
Dann bin ich über dieses verwandte Thema gestolpert und der .sort_index(level=1) hat es geschafft.
So, jetzt das Es funktioniert:
[code]td["output"] = (
td.sort_values(by="week")
.groupby("slug")["valuation"]
.apply(lambda x: x.shift().expanding().mean())
.sort_index(level=1)
.reset_index(drop=True)
)
[/code]
Die „Apply“-Version funktioniert, ist jedoch bei einem großen Datensatz ziemlich langsam. Wenn ich .sort_index(level=1) mit der „Verkettungs“-Version versuche, funktioniert das immer noch nicht.
Obwohl es funktioniert, habe ich immer noch einige Punkte, die ich Ich möchte es besser verstehen:
[list]
[*]Problem mit der Verkettung von Methoden: Wenn ich Methodenverkettung wie z td.groupby('slug')['valuation'].shift().expanding().mean() scheint ab einem bestimmten Punkt den Überblick über die Gruppierung zu verlieren. Ich frage mich, warum das passiert und wie es sich von der Verwendung von „Apply“ unterscheidet.

[*]Indizierung und Zuweisung mit „Apply“: „Apply“ mit einer Lambda-Funktion verwenden führt den Vorgang korrekt aus, aber die resultierende Serie hat eine andere Reihenfolge als mein ursprünglicher DataFrame. Wenn ich versuche, es mit .reset_index(drop=True) wieder zuzuweisen, werden die Dinge nicht richtig ausgerichtet. Ich suche Klarheit darüber, wie dieser Neuzuweisungsprozess funktioniert.

[*]Gibt es eine andere, effizientere Möglichkeit, das zu tun, was ich suche?< /p>

[/list]
Mein Ziel ist es, ein besseres Verständnis dieser Methoden aufzubauen.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Halten Sie den maximalen Wert pro Gruppe einschließlich Wiederholungen bei

Last post by Anonymous « 21 May 2025, 14:54
Posted in Python

by Anonymous » 21 May 2025, 14:54 » in Python

Nehmen wir an, ich habe einen Datenrahmen wie diesen:

a b c
0 x1 y1 9
1 x1 y2 9
2 x1 y3 4
3 x2 y4 2
4 x2 y5 10
5 x2 y6 5
6 x3 y7 6
7 x3 y8 4
8 x3 y9 8
9 x4 y10 11
10 x4 y11 11
11 x4 y12 11

Ich...

0 Replies

1 Views

Last post by Anonymous
21 May 2025, 14:54
Pandas So finden Sie die Gruppe mit dem Maximalwert und löschen die Gruppe

Last post by Anonymous « 21 May 2025, 15:19
Posted in Python

by Anonymous » 21 May 2025, 15:19 » in Python

Ich habe einen solchen Datenrahmen:
import numpy as np
import pandas as pd
dataA = [ , , ,
, ,
, , ,
, ,
, , ,
, ]
df = pd.DataFrame(data = dataA, columns= )

print（df）
date min val
0...

0 Replies

1 Views

Last post by Anonymous
21 May 2025, 15:19
Wie kann der Vorgang des Wiederholens der ersten n Zeilen für jede Gruppe nach der Gruppe um beschleunigt werden?

Last post by Anonymous « 06 Jan 2025, 06:01
Posted in Python

by Anonymous » 06 Jan 2025, 06:01 » in Python

Das DF enthält 100 Millionen Zeilen und die Spalten „group_by“ sind etwa 25–30. Gibt es eine Möglichkeit, diesen Vorgang von hier aus zu beschleunigen? oder das ist das Beste, was ich bekommen kann....

0 Replies

19 Views

Last post by Anonymous
06 Jan 2025, 06:01
Pythons regulärer Ausdruck: Nicht gierig optionale Gruppe, gefolgt von einer anderen optionalen Gruppe

Last post by Anonymous « 07 Feb 2025, 09:21
Posted in Python

by Anonymous » 07 Feb 2025, 09:21 » in Python

Ich verwende den folgenden regulären Ausdruck in Python: ^( .+?)?( Com:.*)?$
(Dieser Regex mag dumm aussehen, aber es ist tatsächlich Teil einer größeren komplexeren Zeichenfolge. Ich habe gerade...

0 Replies

31 Views

Last post by Anonymous
07 Feb 2025, 09:21
Schlüsselcloak -Plugin: Gruppe der vorhandenen Berechtigung Gruppe hinzufügen

Last post by Anonymous « 13 May 2025, 18:54
Posted in Java

by Anonymous » 13 May 2025, 18:54 » in Java

In einem benutzerdefinierten Schlüsselcloak -Plugin versuche ich, feinkörnige Administratorberechtigungen zu erstellen und zu ändern. Nach einigen Graben stellte ich fest, dass dieser Code perfekt...

0 Replies

1 Views

Last post by Anonymous
13 May 2025, 18:54

Return to “Python”