Ich habe ein Szenario, in dem es zwei Blätter gibt (CSV). Es wurde zwei Tabellen dafür erstellt.
Wenn es gute Daten gibt, könnte ich sie mit einem Wert (ID -Statistikwert) aus der zweiten Tabelle abbilden. Wenn ich schlechte Daten habe, sollte ich sie erneut mit dem iD -statistischen Wert zuordnen (aber einem anderen Wert). Ich kann jedoch nicht in Spark SQL verwendet werden. Und ich erhalte den Fehler unten: < /p>
Nichtübereinstimmende Eingabe 'von' Erwartung {, 'wo', 'gruppe', 'order', 'haben', 'limit',. "Lateral", "Fenster", "Vereinigung", "außer", "Schnittpunkt", "Sort", "Cluster", "Distribute"} (Zeile 1, POS 386) < /p>
at org.apache.spark.sql.catalyst.parser.ParseException.withCommand(ParseDriver.scala:197)
at org.apache.spark.sql.catalyst.parser.AbstractSqlParser.parse(ParseDriver.scala:99)
at org.apache.spark.sql.execution.SparkSqlParser.parse(SparkSqlParser.scala:45)
< /code>
Code: < /p>
select
a.ptf_id,a.ptf_code,a.share_id,a.share_code,a.bench_id,a.bench_code
, a.l1_calculation_date,a.l1_begin_date,a.l1_end_date,a.l1_running_date
, a.l1_frequency,a.l1_calculation_step,a.l1_performance_currency
, a.l1_configuration,a.l1_valuation_source,a.l1_nav_valuation_type
, a.l1_setting_reference_type, a.l1_setting_valuation_type
, a.l1_sharpe_ratio_annualized as value,b.id_statistic
from
parquetFile a,
pairRDD b,
stats c
where
a.l1_nav_valuation_type= b.l1_nav_valuation_type
and a.l1_valuation_source = b.l1_valuation_source
and b.l1_Perf = 'l1_sharpe_ratio_annualized'
OR (a.ptf_id not EXISTS (
select e.ptf_id from pairRDD d, parquetFile e
where d.l1_valuation_source = e.l1_valuation_source
AND d.l1_nav_valuation_type = e.l1_nav_valuation_type)
and b.l1_valuation_source ='')
< /code>
Diese Abfrage funktioniert in SQL, wenn ich "nicht in"
benutze, bitte helfen Sie mir, welche anderen Optionen in diesem Szenario als nicht existiert. < / P>
Spark SQL nicht in oder nicht existiert ⇐ Java
-
- Similar Topics
- Replies
- Views
- Last post