formas de reemplazar groupByKey en apache Spark
Me gustaría saber la mejor manera de reemplazargroupByKey operación con otro.
Básicamente me gustaría obtener unRDD [(int, Lista [Medida]), mi situación:
// consider measures like RDD of objects
measures.keyBy(_.getId)
.groupByKey
Mi idea es usarreduceByKey en cambio, porque causa menos barajadura:
measures.keyBy(_.getId)
.mapValues(List(_))
.reduceByKey(_++_)
Pero creo que es muy ineficiente porque me obliga a instanciar toneladas de objetos innecesarios de la Lista.
¿Alguien puede tener otra idea para reemplazar groupByKey?