Wie schließe ich Zeilen anhand einer dynamischen Bedingung in einer PYSPARK -Fensterfunktion aus? - Programmiererforum

Wie schließe ich Zeilen anhand einer dynamischen Bedingung in einer PYSPARK -Fensterfunktion aus? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie schließe ich Zeilen anhand einer dynamischen Bedingung in einer PYSPARK -Fensterfunktion aus?

Report
Quote

Post by Anonymous » 17 Mar 2025, 14:30

Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. Ich möchte jedoch Zeilen ausschließen, bei denen eine bestimmte Spaltenfunktion wahr ist. Die Herausforderung besteht darin, dass der Wert des Merkmals unterwegs berechnet wird, ähnlich wie der Median, also kann ich es nicht vorher filtern. Eine Möglichkeit, es über das Fenster dynamisch zu berechnen, ohne einen neuen Datenrahmen zu erstellen. < /p>

Code: Select all

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, expr
from pyspark.sql.window import Window
from pyspark.sql.functions import percentile_approx

spark = SparkSession.builder.appName("example").getOrCreate()

data = [
(1, 10), (2, 20), (3, 30), (4, 40), (5, 50), (6, 60),
(7, 70), (8, 80), (9, 90), (10, 100), (11, 110), (12, 20)
]

columns = ["id", "value"]
df = spark.createDataFrame(data, columns)

window_spec = Window.orderBy("id").rowsBetween(-5, 0)

df = df.withColumn(
"median_value",
expr("percentile_approx(value, 0.5)").over(window_spec)
)
df = df.withColumn("feature", median_value > 35)
< /code>
Zum Beispiel bei der Berechnung des Medianes für Zeile 7 Der Median ist 40, was in Zeile 8 zutrifft. Der Median sollte aus den Zeilen 1-6 und 8 überspringen, weil es wahr war.data = [
(1, 10, 10, no),
(2, 20, 10, no),
(3, 30, 20, no),
(4, 40, 20, no),
(5, 50, 30, no),
(6, 60, 30, no),
(7, 70, 40, yes), (this wont be used for the next calculations)
(8, 80, 40, yes), (same)
(9, 90, 40, yes), (same)
(10, 100, 40, yes), (same)
(11, 110, 40, yes), (same)
(12, 20, 30, no)
]

1742218229

Anonymous

Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. [url=viewtopic.php?t=14917]Ich möchte[/url] jedoch Zeilen ausschließen, bei denen eine bestimmte Spaltenfunktion wahr ist. Die Herausforderung besteht darin, dass der Wert des Merkmals unterwegs berechnet wird, ähnlich wie der Median, also kann ich es nicht vorher filtern. Eine Möglichkeit, es über das Fenster dynamisch zu berechnen, ohne einen neuen Datenrahmen zu erstellen. < /p>
[code]from pyspark.sql import SparkSession
from pyspark.sql.functions import col, expr
from pyspark.sql.window import Window
from pyspark.sql.functions import percentile_approx

spark = SparkSession.builder.appName("example").getOrCreate()

data = [
(1, 10), (2, 20), (3, 30), (4, 40), (5, 50), (6, 60),
(7, 70), (8, 80), (9, 90), (10, 100), (11, 110), (12, 20)
]

columns = ["id", "value"]
df = spark.createDataFrame(data, columns)

window_spec = Window.orderBy("id").rowsBetween(-5, 0)

df = df.withColumn(
"median_value",
expr("percentile_approx(value, 0.5)").over(window_spec)
)
df = df.withColumn("feature", median_value > 35)
< /code>
Zum Beispiel bei der Berechnung des Medianes für Zeile 7 Der Median ist 40, was in Zeile 8 zutrifft. Der Median sollte aus den Zeilen 1-6 und 8 überspringen, weil es wahr war.data = [
(1, 10, 10, no),
(2, 20, 10, no),
(3, 30, 20, no),
(4, 40, 20, no),
(5, 50, 30, no),
(6, 60, 30, no),
(7, 70, 40, yes), (this wont be used for the next calculations)
(8, 80, 40, yes), (same)
(9, 90, 40, yes), (same)
(10, 100, 40, yes), (same)
(11, 110, 40, yes), (same)
(12, 20, 30, no)
]
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie schließe ich das Tkinter -Fenster ohne Knopf und schließe Python nicht vollständig?

Last post by Anonymous « 12 Sep 2025, 06:20
Posted in Python

by Anonymous » 12 Sep 2025, 06:20 » in Python

Ich bin mir bewusst, dass es Befehle wie .Destroy () , .exit () usw. gibt, wenn diese beim Drücken nicht aus dem 'Befehl' aus dem Schaltflächenparameter herausgenommen werden müssen. öffnet. Ich...

0 Replies

13 Views

Last post by Anonymous
12 Sep 2025, 06:20
Wie extrahiere ich alle doppelten Zeilen mit einer Bedingung in einem Polars -Datenrahmen richtig?

Last post by Anonymous « 21 May 2025, 15:50
Posted in Python

by Anonymous » 21 May 2025, 15:50 » in Python

Bei einem Polars -Datenframe wird ich alle doppelten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
import polars as pl

df = pl.DataFrame({
name : ,...

0 Replies

13 Views

Last post by Anonymous
21 May 2025, 15:50
Wie extrahiere ich alle duplizierten Zeilen mit einer Bedingung in einem Polars DataFrame richtig?

Last post by Anonymous « 31 Oct 2025, 23:46
Posted in Python

by Anonymous » 31 Oct 2025, 23:46 » in Python

Bei einem Polardatenrahmen möchte ich alle duplizierten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
import polars as pl

df = pl.DataFrame({
name :...

0 Replies

1 Views

Last post by Anonymous
31 Oct 2025, 23:46
Wie schließe ich die Dateien aus dem Nuget -Paket aus, bevor ich sie veröffentlichen?

Last post by Anonymous « 15 May 2025, 01:47
Posted in C#

by Anonymous » 15 May 2025, 01:47 » in C#

Ich habe Fehler erhalten:

5>Microsoft.Build.Msix.Packaging.targets(1616,5): Error APPX1101 :
Payload contains two or more files with the same destination path 'package-lock.json'. Source files:...

0 Replies

9 Views

Last post by Anonymous
15 May 2025, 01:47
Mysql2 mit Typescript, Wie schließe ich den ResultSetHeader aus den Ergebnissen aus?

Last post by Guest « 06 Jan 2025, 19:54
Posted in MySql

by Guest » 06 Jan 2025, 19:54 » in MySql

Ich verwende mysql2/promise im Knoten und meine Abfrage lautet:
const = await pool.execute(query, params);

Intellisense gibt an, dass der Typ für Zeilen T[] ist, aber was tatsächlich zur Laufzeit...

0 Replies

29 Views

Last post by Guest
06 Jan 2025, 19:54

Return to “Python”