Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. Ich möchte jedoch Zeilen ausschließen, bei denen eine bestimmte Spaltenfunktion wahr ist. Die Herausforderung besteht darin, dass der Wert des Merkmals unterwegs berechnet wird, ähnlich wie der Median, also kann ich es nicht vorher filtern. Eine Möglichkeit, es über das Fenster dynamisch zu berechnen, ohne einen neuen Datenrahmen zu erstellen. < /p>
Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. [url=viewtopic.php?t=14917]Ich möchte[/url] jedoch Zeilen ausschließen, bei denen eine bestimmte Spaltenfunktion wahr ist. Die Herausforderung besteht darin, dass der Wert des Merkmals unterwegs berechnet wird, ähnlich wie der Median, also kann ich es nicht vorher filtern. Eine Möglichkeit, es über das Fenster dynamisch zu berechnen, ohne einen neuen Datenrahmen zu erstellen. < /p> [code]from pyspark.sql import SparkSession from pyspark.sql.functions import col, expr from pyspark.sql.window import Window from pyspark.sql.functions import percentile_approx
df = df.withColumn( "median_value", expr("percentile_approx(value, 0.5)").over(window_spec) ) df = df.withColumn("feature", median_value > 35) < /code> Zum Beispiel bei der Berechnung des Medianes für Zeile 7 Der Median ist 40, was in Zeile 8 zutrifft. Der Median sollte aus den Zeilen 1-6 und 8 überspringen, weil es wahr war.data = [ (1, 10, 10, no), (2, 20, 10, no), (3, 30, 20, no), (4, 40, 20, no), (5, 50, 30, no), (6, 60, 30, no), (7, 70, 40, yes), (this wont be used for the next calculations) (8, 80, 40, yes), (same) (9, 90, 40, yes), (same) (10, 100, 40, yes), (same) (11, 110, 40, yes), (same) (12, 20, 30, no) ] [/code]
Ich bin mir bewusst, dass es Befehle wie .Destroy () , .exit () usw. gibt, wenn diese beim Drücken nicht aus dem 'Befehl' aus dem Schaltflächenparameter herausgenommen werden müssen. öffnet. Ich...
Bei einem Polars -Datenframe wird ich alle doppelten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
import polars as pl
Bei einem Polardatenrahmen möchte ich alle duplizierten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
import polars as pl
5>Microsoft.Build.Msix.Packaging.targets(1616,5): Error APPX1101 :
Payload contains two or more files with the same destination path 'package-lock.json'. Source files:...