ways, um groupByKey in apache Spark @ zu ersetz

Ich würde gerne wissen, wie ich @ am besten ersetzen ka groupByKey Operation mit einem anderen.

rundsätzlich möchte ich ein @ erhaltRDD [(int, List [Measure]), meine Situation

// consider measures like RDD of objects
measures.keyBy(_.getId)
        .groupByKey

Meine Idee ist, @ zu verwend reduByKey stattdessen, weil es weniger Mischen verursacht:

measures.keyBy(_.getId)
        .mapValues(List(_))
        .reduceByKey(_++_) 

Aber ich denke, es ist sehr ineffizient, weil es mich zwingt, eine Menge unnötiger List-Objekte zu instanziieren.

Kann jemand eine Idee haben, groupByKey zu ersetzen?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage