Unerwartetes Verhalten für die Korrelation von Numpy/Polars bei großen Werten

Unerwartetes Verhalten für die Korrelation von Numpy/Polars bei großen Werten ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Unerwartetes Verhalten für die Korrelation von Numpy/Polars bei großen Werten

Post by Anonymous » 12 Mar 2025, 02:06

Sowohl für Polar als auch für Numpy scheinen Korrelationsfunktionen aufgrund sehr großer Änderungen des Ortes zu zerstören. Eine Bazillion +1 wird als gleich einer bazillion +2 angesehen. Daher ist meine Frage, wie man das am besten umgeht. Die erste Idee scheint entschärft zu sein, was natürlich den Code verlangsamt, aber zumindest sollte ich das RNG-Verhalten vermeiden. Was wäre der Standardansatz?

Code: Select all

import polars as pl
df =  pl.DataFrame({
"a": [1.0, 2.0, 3.0, 1.0, 2.0, 3.0],
"b": [4.0, 3.0, 0.0, 1.0, 2.0, 0.0],
})
(df+1123000000000000000000.0).corr()

# Outputs
#shape: (2, 2)
#┌─────┬─────┐
#│ a   ┆ b   │
#│ --- ┆ --- │
#│ f64 ┆ f64 │
#╞═════╪═════╡
#│ 1.0 ┆ 1.0 │
#│ 1.0 ┆ 1.0 │
#└─────┴─────┘
(df+112300000000000000000.0).corr()

# Outputs
#shape: (2, 2)
#┌─────┬─────┐
#│ a   ┆ b   │
#│ --- ┆ --- │
#│ f64 ┆ f64 │
#╞═════╪═════╡
#│ NaN ┆ NaN │
#│ NaN ┆ NaN │
#└─────┴─────┘

(df+11230000000000000.0).corr()

# Still wrong output
#shape: (2, 2)
#┌───────────┬───────────┐
#│ a         ┆ b         │
#│ ---       ┆ ---       │
#│ f64       ┆ f64       │
#╞═══════════╪═══════════╡
#│ 1.0       ┆ -0.424264 │
#│ -0.424264 ┆ 1.0       │
#└───────────┴───────────┘

(df+1123000000000.0).corr()
# Correct output
# shape: (2, 2)
#┌───────────┬───────────┐
#│ a         ┆ b         │
#│ ---       ┆ ---       │
#│ f64       ┆ f64       │
#╞═══════════╪═══════════╡
#│ 1.0       ┆ -0.684653 │
#│ -0.684653 ┆ 1.0       │
#└───────────┴───────────┘

1741741618

Anonymous

Sowohl für Polar als auch für Numpy scheinen Korrelationsfunktionen aufgrund sehr großer Änderungen des Ortes zu zerstören. Eine Bazillion +1 wird als gleich einer bazillion +2 angesehen. Daher ist meine Frage, wie man das am besten umgeht. Die erste Idee scheint entschärft zu sein, was natürlich den Code verlangsamt, aber zumindest sollte ich das RNG-Verhalten vermeiden. Was wäre der Standardansatz?[code]import polars as pl
df =  pl.DataFrame({
"a": [1.0, 2.0, 3.0, 1.0, 2.0, 3.0],
"b": [4.0, 3.0, 0.0, 1.0, 2.0, 0.0],
})
(df+1123000000000000000000.0).corr()

# Outputs
#shape: (2, 2)
#┌─────┬─────┐
#│ a   ┆ b   │
#│ --- ┆ --- │
#│ f64 ┆ f64 │
#╞═════╪═════╡
#│ 1.0 ┆ 1.0 │
#│ 1.0 ┆ 1.0 │
#└─────┴─────┘
(df+112300000000000000000.0).corr()

# Outputs
#shape: (2, 2)
#┌─────┬─────┐
#│ a   ┆ b   │
#│ --- ┆ --- │
#│ f64 ┆ f64 │
#╞═════╪═════╡
#│ NaN ┆ NaN │
#│ NaN ┆ NaN │
#└─────┴─────┘

(df+11230000000000000.0).corr()

# Still wrong output
#shape: (2, 2)
#┌───────────┬───────────┐
#│ a         ┆ b         │
#│ ---       ┆ ---       │
#│ f64       ┆ f64       │
#╞═══════════╪═══════════╡
#│ 1.0       ┆ -0.424264 │
#│ -0.424264 ┆ 1.0       │
#└───────────┴───────────┘

(df+1123000000000.0).corr()
# Correct output
# shape: (2, 2)
#┌───────────┬───────────┐
#│ a         ┆ b         │
#│ ---       ┆ ---       │
#│ f64       ┆ f64       │
#╞═══════════╪═══════════╡
#│ 1.0       ┆ -0.684653 │
#│ -0.684653 ┆ 1.0       │
#└───────────┴───────────┘

[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Ist die Zeilenreihenfolge bei der Verwendung von polars.scan_csv und polars.scan_parquet mit der Liste der Dateien garan

Last post by Anonymous « 11 Jul 2025, 17:45
Posted in Python

by Anonymous » 11 Jul 2025, 17:45 » in Python

Wenn ich eine Liste von Dateien habe, l = mit den Größen S1, S2, ..., Sn und ich erstelle einen df mit df = pl.scan_csv (l, ...) oder df = pl.Scan_Parquet (l, l. d.h. ?

0 Replies

0 Views

Last post by Anonymous
11 Jul 2025, 17:45
Berechnen Sie die Pearson -Korrelation jeder Reihen in 2D -Numpy -Array (n, m)

Last post by Anonymous « 04 Mar 2025, 15:01
Posted in Python

by Anonymous » 04 Mar 2025, 15:01 » in Python

a = np.array([ , , , , , ])

b = np.array([ , , , , , ])

a = array([ ,
,
,
,
,
])

b = array([ ,
,
,
,
,
])

Ich möchte den Pearson -Korrelationskoeffizienten zwischen dem zuerst row von...

0 Replies

8 Views

Last post by Anonymous
04 Mar 2025, 15:01
Berechnen Sie die Pearson -Korrelation jeder Reihen in 2D -Numpy -Array (n, m)

Last post by Anonymous « 05 Mar 2025, 09:55
Posted in Python

by Anonymous » 05 Mar 2025, 09:55 » in Python

a = np.array([ , , , , , ])

b = np.array([ , , , , , ])

a = array([ ,
,
,
,
,
])

b = array([ ,
,
,
,
,
])

Ich möchte den Pearson -Korrelationskoeffizienten zwischen dem zuerst row von...

0 Replies

15 Views

Last post by Anonymous
05 Mar 2025, 09:55
Was ist der Unterschied zwischen polars.collect_all und polars.lazyframe.collect

Last post by Anonymous « 17 Mar 2025, 14:26
Posted in Python

by Anonymous » 17 Mar 2025, 14:26 » in Python

Beginnend mit dem folgenden Beispiel:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index,...

0 Replies

13 Views

Last post by Anonymous
17 Mar 2025, 14:26
Unerwartetes Verhalten bei der Autofixe beim Anpassen von Booleschen

Last post by Anonymous « 16 Apr 2025, 08:22
Posted in C#

by Anonymous » 16 Apr 2025, 08:22 » in C#

Ich verstehe, dass Autofixure eine Strategie hat, wie Booleschen erstellt werden (beginnend mit dem booleschen Wert true ). Zumindest gibt es Nähte, um ein Muster zu geben:
public class Foo
{...

0 Replies

10 Views

Last post by Anonymous
16 Apr 2025, 08:22

Return to “Python”