Wie kann man in Pandas mehrere statistische Verteilungen über alle möglichen Wertekombinationen in einer Spalte ausführe

Wie kann man in Pandas mehrere statistische Verteilungen über alle möglichen Wertekombinationen in einer Spalte ausführe ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie kann man in Pandas mehrere statistische Verteilungen über alle möglichen Wertekombinationen in einer Spalte ausführe

Report
Quote

Post by Anonymous » 13 Jan 2026, 21:33

Ich versuche, Bins für einen großen Datensatz zu erstellen, sodass die Teilmenge der Daten in jedem Bin gut einer Exponentialverteilung entspricht. Die Grundstruktur der Daten sieht so aus, jedoch mit ~1000 Einzeleinträgen:

Code: Select all

Location = ['CIL', 'BUR', 'SNA', 'PRT'] #a 3-letter code for each unique location data is recorded
TpD = [2.0, 6.5, 32.0, 2.86] #the average number of times per day an event occurs at that location (the independent variable)
Output = [3685, 58492, 285938, 10491] #the total recorded output produced by those events over a year (the dependent variable)

d=pd.DataFrame({'Location':Location, 'TpD':TpD, 'Output':Output})

Für jeden TpD-Wert A möchte ich Folgendes tun:

kumulative empirische und exponentielle Verteilungen über den Bereich von A bis zu allen TpD-Werten >A berechnen
die K-S-Statistik für diese beiden Verteilungen berechnen
wählen Sie den TpD-Wert B aus, der die kleinste K-S-Statistik für den TpD-Wert A erzeugt.
erstellen Sie eine neue Spalte im DataFrame, die den Wert B in derselben Zeile/diesem Index wie Wert A auflistet

Ich kann die ersten drei Schritte für den ersten Bin mit dem folgenden Skript ausführen:

Code: Select all

KSS = []
for a in d.TpD_Avg:
Rng = stat.ecdf(d[d['TpD_Avg'].between(0,a)].Output).cdf.quantiles
Emp = stat.ecdf(d[d['TpD_Avg'].between(0,a)].Output).cdf.probabilities
Exp = stat.expon.cdf(Rng, 0, Rng.mean())
KSS.append(stat.kstest(Emp,Exp).statistic)
d['KSS'] = KSS
d.KSS.min()

Allerdings habe ich Probleme mit dem letzten Schritt, den gleichen Prozess für die verbleibenden Bins zu wiederholen. Meine Intuition schlägt vor, eine Methode zu erstellen und sie auf jeden Wert in TpD_Avg anzuwenden, aber ich schaffe es scheinbar nicht, den Inhalt der Methode zum Laufen zu bringen. Ich habe das folgende Skript ausprobiert:

Code: Select all

for a in d.TpD_Avg:

test = pd.DataFrame()
test['TpD_Avg'] = d['TpD_Avg'].drop_duplicates().sort_values(ascending=True).reset_index(drop=True)
KSS = []
bins = []

for b in test.TpD_Avg:
Rng = stat.ecdf(d[d['TpD_Avg'].between(a,b)].Output).cdf.quantiles
Emp = stat.ecdf(d[d['TpD_Avg'].between(a,b)].Output).cdf.probabilities
Exp = stat.expon.cdf(Rng, 0, Rng.mean())
KSS.append(stat.kstest(Emp,Exp).statistic)

test['KSS'] = KSS
bins.append(test[test.KSS.min()].TpD_Avg)

d['bins'] = bins

...aber das erzeugt sowohl eine Stichprobengrößenwarnung für die drei Zeilen, die die Verteilungen generieren und einen Schlüsselfehler in der letzten Zeile.
Einerseits wäre es schön, wenn ich die spezifischen Fehler in diesem Skript beheben könnte, damit ich weiß, was ich falsch mache. Andererseits muss es sicherlich eine Möglichkeit geben, dies zu tun, für die keine for-Schleifen erforderlich sind. Aus Verzweiflung griff ich auf For-Schleifen zurück, nachdem ich allein mit Pandas wahrscheinlich ein Dutzend verschiedener Befehlssätze erfolglos ausprobiert hatte, bevor ich die ersten drei Schritte, wie im zweiten Codeblock gezeigt, durchführte. Für Vorschläge zu beiden Ansätzen wäre ich dankbar.

1768336406

Anonymous

Ich versuche, Bins für einen großen Datensatz zu erstellen, sodass die Teilmenge der Daten in jedem Bin gut einer Exponentialverteilung entspricht. Die Grundstruktur der Daten sieht so aus, jedoch mit ~1000 Einzeleinträgen:
[code]Location = ['CIL', 'BUR', 'SNA', 'PRT'] #a 3-letter code for each unique location data is recorded
TpD = [2.0, 6.5, 32.0, 2.86] #the average number of times per day an event occurs at that location (the independent variable)
Output = [3685, 58492, 285938, 10491] #the total recorded output produced by those events over a year (the dependent variable)

d=pd.DataFrame({'Location':Location, 'TpD':TpD, 'Output':Output})
[/code]
Für jeden TpD-Wert A möchte ich Folgendes tun:
[list]
[*]kumulative empirische und exponentielle Verteilungen über den Bereich von A bis zu allen TpD-Werten >A berechnen

[*]die K-S-Statistik für diese beiden Verteilungen berechnen

[*]wählen Sie den TpD-Wert B aus, der die kleinste K-S-Statistik für den TpD-Wert A erzeugt.

[*]erstellen Sie eine neue Spalte im DataFrame, die den Wert B in derselben Zeile/diesem Index wie Wert A auflistet

[/list]
Ich kann die ersten drei Schritte für den ersten Bin mit dem folgenden Skript ausführen:
[code]KSS = []
for a in d.TpD_Avg:
Rng = stat.ecdf(d[d['TpD_Avg'].between(0,a)].Output).cdf.quantiles
Emp = stat.ecdf(d[d['TpD_Avg'].between(0,a)].Output).cdf.probabilities
Exp = stat.expon.cdf(Rng, 0, Rng.mean())
KSS.append(stat.kstest(Emp,Exp).statistic)
d['KSS'] = KSS
d.KSS.min()
[/code]
Allerdings habe ich Probleme mit dem letzten Schritt, den gleichen Prozess für die verbleibenden Bins zu wiederholen. Meine Intuition schlägt vor, eine Methode zu erstellen und sie auf jeden Wert in TpD_Avg anzuwenden, aber ich schaffe es scheinbar nicht, den Inhalt der Methode zum Laufen zu bringen. Ich habe das folgende Skript ausprobiert:
[code]for a in d.TpD_Avg:

test = pd.DataFrame()
test['TpD_Avg'] = d['TpD_Avg'].drop_duplicates().sort_values(ascending=True).reset_index(drop=True)
KSS = []
bins = []

for b in test.TpD_Avg:
Rng = stat.ecdf(d[d['TpD_Avg'].between(a,b)].Output).cdf.quantiles
Emp = stat.ecdf(d[d['TpD_Avg'].between(a,b)].Output).cdf.probabilities
Exp = stat.expon.cdf(Rng, 0, Rng.mean())
KSS.append(stat.kstest(Emp,Exp).statistic)

test['KSS'] = KSS
bins.append(test[test.KSS.min()].TpD_Avg)

d['bins'] = bins
[/code]
...aber das erzeugt sowohl eine Stichprobengrößenwarnung für die drei Zeilen, die die Verteilungen generieren und einen Schlüsselfehler in der letzten Zeile.
Einerseits wäre es schön, wenn ich die spezifischen Fehler in diesem Skript [url=viewtopic.php?t=23756]beheben[/url] könnte, damit ich weiß, was ich falsch mache. Andererseits muss es sicherlich eine Möglichkeit geben, dies zu tun, für die keine for-Schleifen erforderlich sind. Aus Verzweiflung griff ich auf For-Schleifen zurück, nachdem ich allein mit Pandas wahrscheinlich ein Dutzend verschiedener Befehlssätze erfolglos ausprobiert hatte, bevor ich die ersten drei Schritte, wie im zweiten Codeblock gezeigt, durchführte. Für Vorschläge zu beiden Ansätzen wäre ich dankbar.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann man mehrere statistische Verteilungen über alle möglichen Wertekombinationen in einer Spalte ausführen und das

Last post by Anonymous « 14 Jan 2026, 08:36
Posted in Python

by Anonymous » 14 Jan 2026, 08:36 » in Python

Ich versuche, Bins für einen großen Datensatz zu erstellen, sodass die Teilmenge der Daten in jedem Bin gut einer Exponentialverteilung entspricht. Die Grundstruktur der Daten sieht so aus, jedoch...

0 Replies

0 Views

Last post by Anonymous
14 Jan 2026, 08:36
Wie kann man mehrere statistische Verteilungen über alle möglichen Wertekombinationen in einer Spalte ausführen und das

Last post by Anonymous « 14 Jan 2026, 15:08
Posted in Python

by Anonymous » 14 Jan 2026, 15:08 » in Python

Ich versuche, Bins für einen großen Datensatz zu erstellen, sodass die Teilmenge der Daten in jedem Bin gut einer Exponentialverteilung entspricht. Die Grundstruktur der Daten sieht so aus, jedoch...

0 Replies

1 Views

Last post by Anonymous
14 Jan 2026, 15:08
So erstellen Sie ein inkrementelles Suffix für Werte in einer Pandas-Spalte, die doppelte Werte in einer anderen Spalte

Last post by Anonymous « 15 Oct 2025, 09:03
Posted in Python

by Anonymous » 15 Oct 2025, 09:03 » in Python

SETUP
Ich habe einen Datenrahmen, df
import pandas as pd

pd.DataFrame(
{
'Name': ,
'Color':
}
)

GEWÜNSCHTE AUSGABE
Ich möchte für jeden Namen ein Aufzählungssuffix hinzufügen, der eine doppelte...

0 Replies

67 Views

Last post by Anonymous
15 Oct 2025, 09:03
Erstellen Sie ein inkrementelles Suffix für Werte in einer Pandas-Spalte, die doppelte Werte in einer anderen Spalte hab

Last post by Anonymous « 15 Oct 2025, 09:51
Posted in Python

by Anonymous » 15 Oct 2025, 09:51 » in Python

Setup
Ich habe einen Datenrahmen, df
import pandas as pd

df = pd.DataFrame(
{
'Name': ,
'Color':
}
)

Name Color
0 foo red
1 foo blue
2 foo red
3 bar green
4 bar green
5 bar blue
6 baz yellow
7...

0 Replies

35 Views

Last post by Anonymous
15 Oct 2025, 09:51
Wie würde ich alle möglichen Permutationen einer 4x4-Matrix mit statischen Eckelementen finden?

Last post by Anonymous « 18 Oct 2025, 06:57
Posted in Python

by Anonymous » 18 Oct 2025, 06:57 » in Python

Bisher habe ich Python verwendet, um Permutationen von Matrizen zum Finden magischer Quadrate zu generieren. Was ich also bisher (für 3x3-Matrizen) gemacht habe, ist, dass ich mit...

0 Replies

23 Views

Last post by Anonymous
18 Oct 2025, 06:57

Return to “Python”