ways, um groupByKey in apache Spark @ zu ersetz
Ich würde gerne wissen, wie ich @ am besten ersetzen ka groupByKey Operation mit einem anderen.
rundsätzlich möchte ich ein @ erhaltRDD [(int, List [Measure]), meine Situation
// consider measures like RDD of objects
measures.keyBy(_.getId)
.groupByKey
Meine Idee ist, @ zu verwend reduByKey stattdessen, weil es weniger Mischen verursacht:
measures.keyBy(_.getId)
.mapValues(List(_))
.reduceByKey(_++_)
Aber ich denke, es ist sehr ineffizient, weil es mich zwingt, eine Menge unnötiger List-Objekte zu instanziieren.
Kann jemand eine Idee haben, groupByKey zu ersetzen?