Pyspark erstellt Paring-Logik - Programmiererforum

Pyspark erstellt Paring-Logik ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Post by Guest » 13 Jan 2025, 10:13

Ich arbeite in Azure Synapse und gewöhne mich an die Arbeit mit Pyspark. Ich möchte in meinem DF eine Paring-Logik zwischen Zeilen erstellen, aber ich bekomme sie nicht zum Laufen. Ich habe eine ID-Spalte und eine Sequenznummer. Zum Beispiel:

ID
seqNum

100
3609

100
3610

< tr>
100
3616

100< /td>
3617

100
3622

< tr>
100
3623

100< /td>
3634

100
3642

< tr>
100
3643

Das sollte der Code ausgeben:

ID
seqNum
pairID

100
3609
1

100
36101

100
3616
2

100
3617
2

100
3622
3

100
3623
3

1003634
Null

100
3642
4

100
36434

Zeile mit 3634 sollte nicht gepaart werden, da der Unterschied zwischen den Sequenznummern eins betragen sollte.
Das habe ich Logik in Python, die zu funktionieren scheint, aber dann kann ich die Verarbeitungsfähigkeiten von Spark nicht nutzen. Kann mir jemand helfen, die Logik in Pyspark zu erstellen?

Code: Select all

# window specification
windowSpec = Window.orderBy("seqNum")

# Add prev and next sequence numbers
df = df.withColumn("prev_seq", lag("seqNum").over(windowSpec))
df = df.withColumn("next_seq", lead("seqNum").over(windowSpec))

# Add flags to indicate proximity
df = df.withColumn("diff_prev", col("ID") - col("prev_seq"))
df = df.withColumn("diff_next", col("next_seq") - col("seqNum"))

#make PairID
df = df.withColumn("PairID", lit(None).cast("int"))

# Assign PairID based on proximity logic
pair_id = 1
rows = df.collect()  # Collect rows for iterative processing
paired_indices = set()  # Track already paired rows
result = []

for i, row in enumerate(rows):
if i in paired_indices:
continue  # Skip already paired rows

current = row["seqNum"]
prev_diff = row["diff_prev"]
next_diff = row["diff_next"]

# Pair with the row above if diff_prev == 1 and it is not already paired
if prev_diff == 1 and (i - 1) not in paired_indices:
result.append((current, pair_id, rows[i - 1]["seqNum"]))
result.append((rows[i - 1]["seqNum"], pair_id, current))
paired_indices.update([i, i - 1])
pair_id += 1

# Pair with the row below if diff_next == 1 and it is not already paired
elif next_diff == 1 and (i + 1) not in paired_indices:
result.append((current, pair_id, rows[i + 1]["seqNum"]))
result.append((rows[i + 1]["seqNum"], pair_id, current))
paired_indices.update([i, i + 1])
pair_id += 1

else:
result.append((current, None, None))

# to DataFrame
result_df = spark.createDataFrame(result, ["seqNum", "PairID", "Closest"])

1736759606

Guest

Ich arbeite in Azure Synapse und gewöhne mich an die Arbeit mit Pyspark. Ich möchte in meinem DF eine Paring-Logik zwischen Zeilen erstellen, aber ich bekomme sie nicht zum Laufen. Ich habe eine ID-Spalte und eine Sequenznummer. Zum Beispiel:



ID
seqNum




100
3609


100
3610

< tr>
100
3616


100< /td>
3617


100
3622

< tr>
100
3623


100< /td>
3634


100
3642

< tr>
100
3643



Das sollte der Code ausgeben:



ID
seqNum
pairID




100
3609
1


100
36101


100
3616
2


100
3617
2

100
3622
3


100
3623
3


1003634
Null


100
3642
4


100
36434



Zeile mit 3634 sollte nicht gepaart werden, da der Unterschied zwischen den Sequenznummern eins betragen sollte.
Das habe ich Logik in Python, die zu funktionieren scheint, aber dann kann ich die Verarbeitungsfähigkeiten von Spark nicht nutzen. Kann mir jemand helfen, die Logik in Pyspark zu erstellen?
[code]
# window specification
windowSpec = Window.orderBy("seqNum")

# Add prev and next sequence numbers
df = df.withColumn("prev_seq", lag("seqNum").over(windowSpec))
df = df.withColumn("next_seq", lead("seqNum").over(windowSpec))

# Add flags to indicate proximity
df = df.withColumn("diff_prev", col("ID") - col("prev_seq"))
df = df.withColumn("diff_next", col("next_seq") - col("seqNum"))

#make PairID
df = df.withColumn("PairID", lit(None).cast("int"))

# Assign PairID based on proximity logic
pair_id = 1
rows = df.collect()  # Collect rows for iterative processing
paired_indices = set()  # Track already paired rows
result = []

for i, row in enumerate(rows):
if i in paired_indices:
continue  # Skip already paired rows

current = row["seqNum"]
prev_diff = row["diff_prev"]
next_diff = row["diff_next"]

# Pair with the row above if diff_prev == 1 and it is not already paired
if prev_diff == 1 and (i - 1) not in paired_indices:
result.append((current, pair_id, rows[i - 1]["seqNum"]))
result.append((rows[i - 1]["seqNum"], pair_id, current))
paired_indices.update([i, i - 1])
pair_id += 1

# Pair with the row below if diff_next == 1 and it is not already paired
elif next_diff == 1 and (i + 1) not in paired_indices:
result.append((current, pair_id, rows[i + 1]["seqNum"]))
result.append((rows[i + 1]["seqNum"], pair_id, current))
paired_indices.update([i, i + 1])
pair_id += 1

else:
result.append((current, None, None))

# to DataFrame
result_df = spark.createDataFrame(result, ["seqNum", "PairID", "Closest"])
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

XCode 16.1 wird für „iOS-Simulator“ erstellt, aber in Dylib verknüpft, das für „macOS“ erstellt wurde.

Last post by Guest « 18 Jan 2025, 20:39
Posted in IOS

by Guest » 18 Jan 2025, 20:39 » in IOS

Ich kann meine native React-App aufgrund eines Fehlers im Zusammenhang mit Hermes nicht mehr erstellen. Das hängt mit der Nichtübereinstimmung der Architektur zusammen, oder? Ich habe mehrere...

0 Replies

24 Views

Last post by Guest
18 Jan 2025, 20:39
So ändern Sie die Candlestick-Logik in Chart.js beim vorherigen Abschluss

Last post by Guest « 05 Jan 2025, 16:00
Posted in JavaScript

by Guest » 05 Jan 2025, 16:00 » in JavaScript

Mittlerweile weiß jeder, dass die Kerzen in einem Finanzdiagramm grün sein sollten, wenn der Schlusskurs über dem Eröffnungskurs liegt, und rot, wenn der Schlusskurs über dem Eröffnungskurs liegt....

0 Replies

21 Views

Last post by Guest
05 Jan 2025, 16:00
Wie schreibe ich Komponententests, um die Logik im Yup-Schema zu überprüfen?

Last post by Guest « 06 Jan 2025, 21:32
Posted in JavaScript

by Guest » 06 Jan 2025, 21:32 » in JavaScript

Ich habe einige nicht triviale Validierungsregeln für eine Vue-App, die VeeValidate, Yup und Vitest verwendet. Ich würde gerne Unit-Tests für mein Yup-Schema schreiben, aber die Beispiele, die ich...

0 Replies

5 Views

Last post by Guest
06 Jan 2025, 21:32
Überprüfung der Logik zum Zählen der Tage zwischen zwei Daten, mit Ausnahme der Wochenenden

Last post by Guest « 11 Jan 2025, 09:53
Posted in C#

by Guest » 11 Jan 2025, 09:53 » in C#

Das Ziel besteht darin, die Gesamtzahl der von allen Mitarbeitern in Anspruch genommenen Urlaubstage, aufgeschlüsselt nach Monat und Jahr, zu berechnen und sicherzustellen, dass Wochenenden nicht in...

0 Replies

11 Views

Last post by Guest
11 Jan 2025, 09:53
Wie man eine Python-Funktion mit bedingter Logik auf einem np.array oder einem Float zum Laufen bringt

Last post by Anonymous « 17 Jan 2025, 10:55
Posted in Python

by Anonymous » 17 Jan 2025, 10:55 » in Python

Ich habe eine Funktion, die Numpy-Arrays oder Floats als Eingabe verwenden möchte. Ich möchte eine Operation so lange ausführen, bis ein Fehlermaß unter einem Schwellenwert liegt.
Ein einfaches...

0 Replies

17 Views

Last post by Anonymous
17 Jan 2025, 10:55

Return to “Python”