Ich habe ein Spark Java -Programm, bei dem ein GroupByKey mit einem MapValues -Schritt durchgeführt wird und ein Paar mit Wert als iterable aller Eingabe -RDD -Werte zurückgibt.
Ich habe gelesen, dass das Ersetzen von Redebykey an der Stelle von GroupByKey durch MapValues einen Leistungsgewinn verleiht, aber ich weiß nicht, wie ich RedByKey < /code> auf mein Problem hier anwenden soll. < /p>
speziell habe ich ein Eingangspaar RDD, das mit Typ Tuple5 < /code> Wert aufweist. Nach den Transformationen von GroupByKey und MapValues muss ich ein Schlüsselwertpaar RDD abrufen, bei dem der Wert eine iterable der Eingabestalte sein muss. < /P>
JavaPairRDD inputRDD;
...
...
...
JavaPairRDD groupedRDD = inputRDD
.groupByKey()
.mapValues(
new Function() {
@Override
public Iterable call(
Iterable v1)
throws Exception {
/*
Some steps here..
*/
return mappedValue;
}
});
< /code>
Gibt es eine Möglichkeit, wie ich die obige Transformation mit redebykey < /code> erhalten könnte?
Wie ersetzt ich den GroupByKey durch Redebykey, um als iterable Wert in Spark Java zurückzukehren? ⇐ Java
-
- Similar Topics
- Replies
- Views
- Last post