Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. Ich möchte jedoch Zeilen ausschließen, bei denen eine bestimmte Spaltenfunktion wahr ist. Die Herausforderung besteht darin, dass der Wert des Merkmals unterwegs berechnet wird, ähnlich wie der Median, also kann ich es nicht vorher filtern. Eine Möglichkeit, es über das Fenster dynamisch zu berechnen, ohne einen neuen Datenrahmen zu erstellen. < /p>
Ich arbeite mit PySpark und muss eine Fensterfunktion erstellen, die den Median der vorherigen 5 Werte in einer Spalte berechnet. [url=viewtopic.php?t=14917]Ich möchte[/url] jedoch Zeilen ausschließen, bei denen eine bestimmte Spaltenfunktion wahr ist. Die Herausforderung besteht darin, dass der Wert des Merkmals unterwegs berechnet wird, ähnlich wie der Median, also kann ich es nicht vorher filtern. Eine Möglichkeit, es über das Fenster dynamisch zu berechnen, ohne einen neuen Datenrahmen zu erstellen. < /p> [code]from pyspark.sql import SparkSession from pyspark.sql.functions import col, expr from pyspark.sql.window import Window from pyspark.sql.functions import percentile_approx
df = df.withColumn( "median_value", expr("percentile_approx(value, 0.5)").over(window_spec) ) df = df.withColumn("feature", median_value > 35) < /code> Zum Beispiel bei der Berechnung des Medianes für Zeile 7 Der Median ist 40, was in Zeile 8 zutrifft. Der Median sollte aus den Zeilen 1-6 und 8 überspringen, weil es wahr war.data = [ (1, 10, 10, no), (2, 20, 10, no), (3, 30, 20, no), (4, 40, 20, no), (5, 50, 30, no), (6, 60, 30, no), (7, 70, 40, yes), (this wont be used for the next calculations) (8, 80, 40, yes), (same) (9, 90, 40, yes), (same) (10, 100, 40, yes), (same) (11, 110, 40, yes), (same) (12, 20, 30, no) ] [/code]
5>Microsoft.Build.Msix.Packaging.targets(1616,5): Error APPX1101 :
Payload contains two or more files with the same destination path 'package-lock.json'. Source files:...
Ich habe ein Maven -Projekt mit mehreren Modulen, einschließlich org.eclipse.cdt.core . Aus irgendeinem Grund möchte der Kunde org.eclipse.cdt.core bauen. In diesem Zweck habe ich das Ausschluss Tag...
Bei einem Polars -Datenframe wird ich alle doppelten Zeilen extrahieren und gleichzeitig eine zusätzliche Filterbedingung anwenden, zum Beispiel:
import polars as pl
Ich möchte, wo Daten mit $ find auswählen, aber es (wo) nicht in der folgenden Abfrage und meine Ausgabe ist nicht , wie beheben?
$find= hello ;
$query = $this->db->query('
SELECT...