Polars aufeinanderfolgende Joins sind eine Alternative

Polars aufeinanderfolgende Joins sind eine Alternative ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Polars aufeinanderfolgende Joins sind eine Alternative

Report
Quote

Post by Guest » 24 Dec 2024, 10:15

Ich habe einen großen Datensatz und muss mehrere aufeinanderfolgende Verknüpfungen durchführen, die langsam sind. Ich dachte, eine Alternative bestünde darin, den gesamten Datenrahmen, den ich erfolgreich zusammengeführt habe, zu entpivotieren, ihn einmal zu verbinden und dann die Daten mit einer Mischung aus pl.coalesce und pl.join (Nested polars.col()) an die gewünschte Stelle zu bringen.Für meinen Anwendungsfall ist dies schneller als die aufeinanderfolgenden Verknüpfungen, wenn die Körbe größer werden, aber Ich habe mich gefragt, ob es einen besseren (schnelleren, speichereffizienteren) Weg gibt, dies zu erreichen Dies.
Im wirklichen Leben führe ich die folgenden Operationen möglicherweise mehrmals aus, für mehr Funktionen, mehr Symbole und größere Körbe.

Code: Select all

import polars as pl
from polars import col
from vega_datasets import data

df = pl.from_pandas(data.stocks())
list_symbols = df.select(col('symbol').unique()).to_series().to_list()
"""
[
"IBM",
"MSFT",
"AAPL",
"AMZN",
"GOOG"
]
"""

basket = pl.DataFrame(
{
"MSFT": ["AMZN", "GOOG"],
"AMZN": ["MSFT", "GOOG"],
"GOOG": ["AAPL", "IBM"],
"IBM": ["AMZN", "AAPL"],
"AAPL": ["AMZN", "IBM"],
}
).transpose(
include_header=True,
header_name="symbol",
column_names=["symbol_1", "symbol_2"],
)

Aufeinanderfolgende Verknüpfungen

Code: Select all

(
df
.join(basket, on='symbol', how='left')
# I've put an iterative function to do the successive joins when needed, assume more than 2 joins in real life
.join(df.select('date','symbol', col('price').name.suffix('_1')),
left_on = ['date', 'symbol_1'],
right_on = ['date', 'symbol'],
how='left',
)
.join(df.select('date','symbol', col('price').name.suffix('_2')),
left_on = ['date', 'symbol_2'],
right_on = ['date', 'symbol'],
how='left',
)
)

Entpivotieren, verbinden, verschachtelte Spalte (zusammenfügen + wann)

Code: Select all

df_pivot = (
# I normally use the lazyframe pivot implementation to wrok with lazyframe
df.pivot(index='date', on='symbol', values='price')
)

(
df.join(basket, on="symbol", how="left")
# alternative to the successive joins
.join(
df_pivot.select('date', pl.exclude('date').name.suffix('_price_to_drop')),
on="date",
how="left",
)
.with_columns(
*[
pl.coalesce(
pl.when(col(f'symbol_{i}')==symbol)
.then(col(f'{symbol}_price_to_drop'))
for symbol in list_symbols
).alias(f'price_{i}')
for i in [1,2]
]
)
.select(pl.exclude("^.*to_drop$"))
)

Beachten Sie, dass ich normalerweise mit Lazyframes arbeite. Dies ist im obigen Beispiel nicht der Fall.

1735031739

Guest

Ich habe einen großen Datensatz und muss mehrere aufeinanderfolgende Verknüpfungen durchführen, die langsam sind. Ich dachte, eine Alternative bestünde darin, den gesamten Datenrahmen, den ich erfolgreich zusammengeführt habe, zu entpivotieren, ihn einmal zu verbinden und dann die Daten mit einer Mischung aus pl.coalesce und pl.join (Nested polars.col()) an die gewünschte Stelle zu bringen.Für meinen Anwendungsfall ist dies schneller als die aufeinanderfolgenden Verknüpfungen, wenn die Körbe größer werden, aber [b]Ich habe mich gefragt, ob es einen besseren (schnelleren, speichereffizienteren) Weg gibt, dies zu erreichen Dies.[/b]
Im wirklichen Leben führe ich die folgenden Operationen möglicherweise mehrmals aus, für mehr Funktionen, mehr Symbole und größere Körbe.
[code]import polars as pl
from polars import col
from vega_datasets import data

df = pl.from_pandas(data.stocks())
list_symbols = df.select(col('symbol').unique()).to_series().to_list()
"""
[
"IBM",
"MSFT",
"AAPL",
"AMZN",
"GOOG"
]
"""

basket = pl.DataFrame(
{
"MSFT": ["AMZN", "GOOG"],
"AMZN": ["MSFT", "GOOG"],
"GOOG": ["AAPL", "IBM"],
"IBM": ["AMZN", "AAPL"],
"AAPL": ["AMZN", "IBM"],
}
).transpose(
include_header=True,
header_name="symbol",
column_names=["symbol_1", "symbol_2"],
)
[/code]
[list]
[*]Aufeinanderfolgende Verknüpfungen
[/list]
[code](
df
.join(basket, on='symbol', how='left')
# I've put an iterative function to do the successive joins when needed, assume more than 2 joins in real life
.join(df.select('date','symbol', col('price').name.suffix('_1')),
left_on = ['date', 'symbol_1'],
right_on = ['date', 'symbol'],
how='left',
)
.join(df.select('date','symbol', col('price').name.suffix('_2')),
left_on = ['date', 'symbol_2'],
right_on = ['date', 'symbol'],
how='left',
)
)
[/code]
[list]
[*]Entpivotieren, verbinden, verschachtelte Spalte (zusammenfügen + wann)
[/list]
[code]df_pivot = (
# I normally use the lazyframe pivot implementation to wrok with lazyframe
df.pivot(index='date', on='symbol', values='price')
)

(
df.join(basket, on="symbol", how="left")
# alternative to the successive joins
.join(
df_pivot.select('date', pl.exclude('date').name.suffix('_price_to_drop')),
on="date",
how="left",
)
.with_columns(
*[
pl.coalesce(
pl.when(col(f'symbol_{i}')==symbol)
.then(col(f'{symbol}_price_to_drop'))
for symbol in list_symbols
).alias(f'price_{i}')
for i in [1,2]
]
)
.select(pl.exclude("^.*to_drop$"))
)
[/code]
Beachten Sie, dass ich normalerweise mit Lazyframes arbeite. Dies ist im obigen Beispiel nicht der Fall.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Polars aufeinanderfolgende Joins sind eine Alternative

Last post by Anonymous « 24 Dec 2024, 09:02
Posted in Python

by Anonymous » 24 Dec 2024, 09:02 » in Python

Ich habe einen großen Datensatz und muss mehrere aufeinanderfolgende Verknüpfungen durchführen, die langsam sind. Ich dachte, eine Alternative bestünde darin, den gesamten Datenrahmen, den ich...

0 Replies

33 Views

Last post by Anonymous
24 Dec 2024, 09:02
Was ist der Unterschied zwischen polars.collect_all und polars.lazyframe.collect

Last post by Anonymous « 17 Mar 2025, 14:26
Posted in Python

by Anonymous » 17 Mar 2025, 14:26 » in Python

Beginnend mit dem folgenden Beispiel:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index,...

0 Replies

22 Views

Last post by Anonymous
17 Mar 2025, 14:26
Ist die Zeilenreihenfolge bei der Verwendung von polars.scan_csv und polars.scan_parquet mit der Liste der Dateien garan

Last post by Anonymous « 11 Jul 2025, 17:45
Posted in Python

by Anonymous » 11 Jul 2025, 17:45 » in Python

Wenn ich eine Liste von Dateien habe, l = mit den Größen S1, S2, ..., Sn und ich erstelle einen df mit df = pl.scan_csv (l, ...) oder df = pl.Scan_Parquet (l, l. d.h. ?

0 Replies

3 Views

Last post by Anonymous
11 Jul 2025, 17:45
Wie hol ich Chat -Daten mit Eloquent mit Joins in Laravel 11?

Last post by Guest « 14 Feb 2025, 06:19
Posted in MySql

by Guest » 14 Feb 2025, 06:19 » in MySql

Ich versuche, mit eloquent in Laravel 11 über Chat-bezogene Daten zu holen, aber ich kämpfe darum, eine optimierte Abfrage mit eloquenten Beziehungen oder Verbindungen zu strukturieren.
Ich habe...

0 Replies

33 Views

Last post by Guest
14 Feb 2025, 06:19
Wie hole ich Chat -Daten mit eloquent mit Joins?

Last post by Anonymous « 14 Feb 2025, 07:05
Posted in MySql

by Anonymous » 14 Feb 2025, 07:05 » in MySql

Ich versuche, mit eloquent in Laravel 11 über Chat-bezogene Daten zu holen, aber ich kämpfe darum, eine optimierte Abfrage mit eloquenten Beziehungen oder Verbindungen zu strukturieren.
Ich habe...

0 Replies

25 Views

Last post by Anonymous
14 Feb 2025, 07:05

Return to “Python”