Polars aufeinanderfolgende Joins sind eine Alternative

Polars aufeinanderfolgende Joins sind eine Alternative ⇐ Python

1 post • Page 1 of 1

Anonymous

Polars aufeinanderfolgende Joins sind eine Alternative

Report
Quote

Post by Anonymous » 24 Dec 2024, 09:02

Ich habe einen großen Datensatz und muss mehrere aufeinanderfolgende Verknüpfungen durchführen, die langsam sind. Ich dachte, eine Alternative bestünde darin, den gesamten Datenrahmen, den ich erfolgreich zusammengeführt habe, zu entpivotieren, ihn einmal zu verbinden und dann die Daten mit einer Mischung aus pl.coalesce und pl.join (Nested polars.col()) an die gewünschte Stelle zu bringen.Für meinen Anwendungsfall ist dies schneller als die aufeinanderfolgenden Verknüpfungen, wenn die Körbe größer werden, aber Ich habe mich gefragt, ob es einen besseren (schnelleren, speichereffizienteren) Weg gibt, dies zu erreichen Dies.
Im wirklichen Leben führe ich die folgenden Operationen möglicherweise mehrmals aus, für mehr Funktionen, mehr Symbole und größere Körbe.
import polars as pl
from polars import col
from vega_datasets import data

df = pl.from_pandas(data.stocks())
list_symbols = df.select(col('symbol').unique()).to_series().to_list()
"""
[
"IBM",
"MSFT",
"AAPL",
"AMZN",
"GOOG"
]
"""

basket = pl.DataFrame(
{
"MSFT": ["AMZN", "GOOG"],
"AMZN": ["MSFT", "GOOG"],
"GOOG": ["AAPL", "IBM"],
"IBM": ["AMZN", "AAPL"],
"AAPL": ["AMZN", "IBM"],
}
).transpose(
include_header=True,
header_name="symbol",
column_names=["symbol_1", "symbol_2"],
)

Aufeinanderfolgende Verknüpfungen

(
df
.join(basket, on='symbol', how='left')
# I've put an iterative function to do the successive joins when needed, assume more than 2 joins in real life
.join(df.select('date','symbol', col('price').name.suffix('_1')),
left_on = ['date', 'symbol_1'],
right_on = ['date', 'symbol'],
how='left',
)
.join(df.select('date','symbol', col('price').name.suffix('_2')),
left_on = ['date', 'symbol_2'],
right_on = ['date', 'symbol'],
how='left',
)
)

Entpivotieren, verbinden, verschachtelte Spalte (zusammenfügen + wann)

df_pivot = (
# I normally use the lazyframe pivot implementation to wrok with lazyframe
df.pivot(index='date', on='symbol', values='price')
)

(
df.join(basket, on="symbol", how="left")
# alternative to the successive joins
.join(
df_pivot.select('date', pl.exclude('date').name.suffix('_price_to_drop')),
on="date",
how="left",
)
.with_columns(
*[
pl.coalesce(
pl.when(col(f'symbol_{i}')==symbol)
.then(col(f'{symbol}_price_to_drop'))
for symbol in list_symbols
).alias(f'price_{i}')
for i in [1,2]
]
)
.select(pl.exclude("^.*to_drop$"))
)

Beachten Sie, dass ich normalerweise mit Lazyframes arbeite. Dies ist im obigen Beispiel nicht der Fall.

1735027330

Anonymous

Ich habe einen großen Datensatz und muss mehrere aufeinanderfolgende Verknüpfungen durchführen, die langsam sind. Ich dachte, eine Alternative bestünde darin, den gesamten Datenrahmen, den ich erfolgreich zusammengeführt habe, zu entpivotieren, ihn einmal zu verbinden und dann die Daten mit einer Mischung aus pl.coalesce und pl.join (Nested polars.col()) an die gewünschte Stelle zu bringen.Für meinen Anwendungsfall ist dies schneller als die aufeinanderfolgenden Verknüpfungen, wenn die Körbe größer werden, aber [b]Ich habe mich gefragt, ob es einen besseren (schnelleren, speichereffizienteren) Weg gibt, dies zu erreichen Dies.[/b]
Im wirklichen Leben führe ich die folgenden Operationen möglicherweise mehrmals aus, für mehr Funktionen, mehr Symbole und größere Körbe.
import polars as pl
from polars import col
from vega_datasets import data

df = pl.from_pandas(data.stocks())
list_symbols = df.select(col('symbol').unique()).to_series().to_list()
"""
[
"IBM",
"MSFT",
"AAPL",
"AMZN",
"GOOG"
]
"""

basket = pl.DataFrame(
{
"MSFT": ["AMZN", "GOOG"],
"AMZN": ["MSFT", "GOOG"],
"GOOG": ["AAPL", "IBM"],
"IBM": ["AMZN", "AAPL"],
"AAPL": ["AMZN", "IBM"],
}
).transpose(
include_header=True,
header_name="symbol",
column_names=["symbol_1", "symbol_2"],
)

[list]
[*]Aufeinanderfolgende Verknüpfungen
[/list]
(
df
.join(basket, on='symbol', how='left')
# I've put an iterative function to do the successive joins when needed, assume more than 2 joins in real life
.join(df.select('date','symbol', col('price').name.suffix('_1')),
left_on = ['date', 'symbol_1'],
right_on = ['date', 'symbol'],
how='left',
)
.join(df.select('date','symbol', col('price').name.suffix('_2')),
left_on = ['date', 'symbol_2'],
right_on = ['date', 'symbol'],
how='left',
)
)

[list]
[*]Entpivotieren, verbinden, verschachtelte Spalte (zusammenfügen + wann)
[/list]
df_pivot = (
# I normally use the lazyframe pivot implementation to wrok with lazyframe
df.pivot(index='date', on='symbol', values='price')
)

(
df.join(basket, on="symbol", how="left")
# alternative to the successive joins
.join(
df_pivot.select('date', pl.exclude('date').name.suffix('_price_to_drop')),
on="date",
how="left",
)
.with_columns(
*[
pl.coalesce(
pl.when(col(f'symbol_{i}')==symbol)
.then(col(f'{symbol}_price_to_drop'))
for symbol in list_symbols
).alias(f'price_{i}')
for i in [1,2]
]
)
.select(pl.exclude("^.*to_drop$"))
)

Beachten Sie, dass ich normalerweise mit Lazyframes arbeite. Dies ist im obigen Beispiel nicht der Fall.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Polars aufeinanderfolgende Joins sind eine Alternative

Last post by Guest « 24 Dec 2024, 10:15
Posted in Python

by Guest » 24 Dec 2024, 10:15 » in Python

Ich habe einen großen Datensatz und muss mehrere aufeinanderfolgende Verknüpfungen durchführen, die langsam sind. Ich dachte, eine Alternative bestünde darin, den gesamten Datenrahmen, den ich...

0 Replies

33 Views

Last post by Guest
24 Dec 2024, 10:15
Wie hol ich Chat -Daten mit Eloquent mit Joins in Laravel 11?

Last post by Guest « 14 Feb 2025, 06:19
Posted in MySql

by Guest » 14 Feb 2025, 06:19 » in MySql

Ich versuche, mit eloquent in Laravel 11 über Chat-bezogene Daten zu holen, aber ich kämpfe darum, eine optimierte Abfrage mit eloquenten Beziehungen oder Verbindungen zu strukturieren.
Ich habe...

0 Replies

35 Views

Last post by Guest
14 Feb 2025, 06:19
Wie hole ich Chat -Daten mit eloquent mit Joins?

Last post by Anonymous « 14 Feb 2025, 07:05
Posted in MySql

by Anonymous » 14 Feb 2025, 07:05 » in MySql

Ich versuche, mit eloquent in Laravel 11 über Chat-bezogene Daten zu holen, aber ich kämpfe darum, eine optimierte Abfrage mit eloquenten Beziehungen oder Verbindungen zu strukturieren.
Ich habe...

0 Replies

28 Views

Last post by Anonymous
14 Feb 2025, 07:05
CodeIgniter-Abfrage mit LEFT JOINs gibt unerwünschte/nicht verwandte Zeilen zurück

Last post by Anonymous « 16 Nov 2025, 03:31
Posted in Php

by Anonymous » 16 Nov 2025, 03:31 » in Php

Ich habe 4 Tabellen wie unten beschrieben:
auth_user_profiles (Tabelle, die Benutzerdetails enthält)
CREATE TABLE IF NOT EXISTS `auth_user_profiles` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`user_id`...

0 Replies

12 Views

Last post by Anonymous
16 Nov 2025, 03:31
Was ist der Unterschied zwischen polars.collect_all und polars.lazyframe.collect

Last post by Anonymous « 17 Mar 2025, 14:26
Posted in Python

by Anonymous » 17 Mar 2025, 14:26 » in Python

Beginnend mit dem folgenden Beispiel:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index,...

0 Replies

43 Views

Last post by Anonymous
17 Mar 2025, 14:26

Return to “Python”