Asof-Join mit mehreren Ungleichheitsbedingungen

Asof-Join mit mehreren Ungleichheitsbedingungen ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Asof-Join mit mehreren Ungleichheitsbedingungen

Post by Guest » 28 Dec 2024, 18:35

Ich habe zwei Datenrahmen: a (~600 Mio. Zeilen) und b (~2 Mio. Zeilen). Was ist der beste Ansatz, um b mit a zu verbinden, wenn 1 Gleichheitsbedingung und 2 Ungleichheitsbedingungen für die jeweiligen Spalten verwendet werden?

a_1 = b_1
a_2 >= b_2
a_3 >= b_3

Ich habe bisher die folgenden Wege erkundet:

Polars:

join_asof(): erlaubt nur 1 Ungleichheitsbedingung
join_where() mit filter(): Selbst bei einem kleinen Toleranzfenster gehen der Standard-Polars-Installation während des Joins die Zeilen aus (4,3B Zeilenlimit) und der Polars-u64-idx-Installation gehen die Zeilen aus Speicher (512GB)

[*]DuckDB: ASOF LEFT JOIN: erlaubt auch nur 1 Ungleichheitsbedingung
< li>Numba: Da das oben Gesagte nicht funktioniert hat, habe ich versucht, meine eigene Funktion „join_asof()“ zu erstellen – siehe Code unten. Es funktioniert gut, aber mit zunehmender Länge von a wird es unerschwinglich langsam. Ich habe verschiedene Konfigurationen von for/while-Schleifen und Filtern ausprobiert, alle mit ähnlichen Ergebnissen.

Jetzt gehen mir etwas die Ideen aus ... Was wäre ein effizienterer Weg, dies umzusetzen?
Vielen Dank

Code: Select all

import numba as nb
import numpy as np
import polars as pl
import time

@nb.njit(nb.int32[:](nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:]), parallel=True)
def join_multi_ineq(a_1, a_2, a_3, b_1, b_2, b_3, b_4):
output = np.zeros(len(a_1), dtype=np.int32)

for i in nb.prange(len(a_1)):

for j in range(len(b_1) - 1, -1, -1):

if a_1[i] == b_1[j]:

if a_2[i] >= b_2[j]:

if a_3[i] >= b_3[j]:
output[i] = b_4[j]
break

return output

length_a = 5_000_000
length_b = 2_000_000

start_time = time.time()
output = join_multi_ineq(a_1=np.random.randint(1, 1_000, length_a, dtype=np.int32),
a_2=np.random.randint(1, 1_000, length_a, dtype=np.int32),
a_3=np.random.randint(1, 1_000, length_a, dtype=np.int32),
b_1=np.random.randint(1, 1_000, length_b, dtype=np.int32),
b_2=np.random.randint(1, 1_000, length_b, dtype=np.int32),
b_3=np.random.randint(1, 1_000, length_b, dtype=np.int32),
b_4=np.random.randint(1, 1_000, length_b, dtype=np.int32))
print(f"Duration: {(time.time() - start_time):.2f} seconds")

1735407355

Guest

Ich habe zwei Datenrahmen: [b]a (~600 Mio. Zeilen)[/b] und [b]b (~2 Mio. Zeilen)[/b]. Was ist der beste Ansatz, um b mit a zu verbinden, wenn 1 Gleichheitsbedingung und [b]2 Ungleichheitsbedingungen[/b] für die jeweiligen Spalten verwendet werden?
[list]
[*] a_1 = b_1
[*]a_2 >= b_2
[*]a_3 >= b_3
[/list]
Ich habe bisher die folgenden Wege erkundet:
[list]
[*][b]Polars[/b]:

join_asof(): erlaubt nur 1 Ungleichheitsbedingung[*]join_where() mit filter(): Selbst bei einem kleinen Toleranzfenster gehen der Standard-Polars-Installation während des Joins die Zeilen aus (4,3B Zeilenlimit) und der Polars-u64-idx-Installation gehen die Zeilen aus Speicher (512GB)
[/list]

[*][b]DuckDB[/b]: ASOF LEFT JOIN: erlaubt auch nur 1 Ungleichheitsbedingung
< li>[b]Numba[/b]: Da das oben Gesagte nicht funktioniert hat, habe ich versucht, meine eigene Funktion „join_asof()“ zu erstellen – siehe Code unten. Es funktioniert gut, aber mit zunehmender Länge von a wird es unerschwinglich langsam. Ich habe verschiedene Konfigurationen von for/while-Schleifen und Filtern ausprobiert, alle mit ähnlichen Ergebnissen.

Jetzt gehen mir etwas die Ideen aus ... Was wäre ein effizienterer Weg, dies umzusetzen?
Vielen Dank
[code]import numba as nb
import numpy as np
import polars as pl
import time

@nb.njit(nb.int32[:](nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:]), parallel=True)
def join_multi_ineq(a_1, a_2, a_3, b_1, b_2, b_3, b_4):
output = np.zeros(len(a_1), dtype=np.int32)

for i in nb.prange(len(a_1)):

for j in range(len(b_1) - 1, -1, -1):

if a_1[i] == b_1[j]:

if a_2[i] >= b_2[j]:

if a_3[i] >= b_3[j]:
output[i] = b_4[j]
break

return output

length_a = 5_000_000
length_b = 2_000_000

start_time = time.time()
output = join_multi_ineq(a_1=np.random.randint(1, 1_000, length_a, dtype=np.int32),
a_2=np.random.randint(1, 1_000, length_a, dtype=np.int32),
a_3=np.random.randint(1, 1_000, length_a, dtype=np.int32),
b_1=np.random.randint(1, 1_000, length_b, dtype=np.int32),
b_2=np.random.randint(1, 1_000, length_b, dtype=np.int32),
b_3=np.random.randint(1, 1_000, length_b, dtype=np.int32),
b_4=np.random.randint(1, 1_000, length_b, dtype=np.int32))
print(f"Duration: {(time.time() - start_time):.2f} seconds")
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Abrufen Sie Daten aus mehreren Tabellen mit mehreren bis zu vielen Beziehungen ab

Last post by Anonymous « 28 Feb 2025, 06:06
Posted in MySql

by Anonymous » 28 Feb 2025, 06:06 » in MySql

Ich habe 4 Tabellen.
project
--------------------------------------
| project_id | name | client_id |
--------------------------------------
| 1 | Make Safe | 12 |
| 2 | Quote | 55 |
| 3 | Assist...

0 Replies

8 Views

Last post by Anonymous
28 Feb 2025, 06:06
Java JPA Inner JOIN mit WHERE-Anweisung

Last post by Guest « 22 Dec 2024, 21:01
Posted in Java

by Guest » 22 Dec 2024, 21:01 » in Java

Ich möchte die folgende Struktur mit Anmerkungen versehen:

Ich habe diese Abfrage:

SELECT A.*, BES.*, BES_2.*
INNER JOIN BES ON A.a = BES.a AND A.b = BES.b
INNER JOIN BES AS BES_2 ON A.a = BES_2.a...

0 Replies

11 Views

Last post by Guest
22 Dec 2024, 21:01
SQL-Abfrage mit JOIN und PIVOT

Last post by Anonymous « 23 Dec 2024, 14:02
Posted in Php

by Anonymous » 23 Dec 2024, 14:02 » in Php

In meinem Projekt habe ich zwei Tabellen und eine Pivot-Tabelle und ich möchte mein erwartetes Ergebnis möglichst mit einer SQL-Abfrage erhalten.

Hier meine Tabellen:

table_1

id | title |...

0 Replies

7 Views

Last post by Anonymous
23 Dec 2024, 14:02
SQL-Abfrage mit JOIN und PIVOT

Last post by Anonymous « 23 Dec 2024, 15:04
Posted in Php

by Anonymous » 23 Dec 2024, 15:04 » in Php

In meinem Projekt habe ich zwei Tabellen und eine Pivot-Tabelle und ich möchte mein erwartetes Ergebnis möglichst mit einer SQL-Abfrage erhalten.

Hier meine Tabellen:

table_1

id | title |...

0 Replies

10 Views

Last post by Anonymous
23 Dec 2024, 15:04
Zeigen Sie JSON-Daten in der Laravel-Ansicht mit Join-Tabellen eins als Referenztabelle an

Last post by Anonymous « 23 Dec 2024, 17:57
Posted in Php

by Anonymous » 23 Dec 2024, 17:57 » in Php

Kann jemand helfen? Ich wollte Spalten aus Join-Tabellen in der Laravel-Ansicht anzeigen. Eine bestimmte Spalte enthält JSON-Daten.
Tabelle:
ref_code_exam

id
Beschreibung

1
Prüfung 1

2...

0 Replies

19 Views

Last post by Anonymous
23 Dec 2024, 17:57

Return to “Python”