formas de reemplazar groupByKey en apache Spark

Question

May 24, 2016, 12:52 PM

Me gustaría saber la mejor manera de reemplazargroupByKey operación con otro.

Básicamente me gustaría obtener unRDD [(int, Lista [Medida]), mi situación:

// consider measures like RDD of objects
measures.keyBy(_.getId)
        .groupByKey

Mi idea es usarreduceByKey en cambio, porque causa menos barajadura:

measures.keyBy(_.getId)
        .mapValues(List(_))
        .reduceByKey(_++_)

Pero creo que es muy ineficiente porque me obliga a instanciar toneladas de objetos innecesarios de la Lista.

¿Alguien puede tener otra idea para reemplazar groupByKey?

Respuestas a la pregunta(1)

¿Cómo evitar que Chrome almacene en caché la respuesta REST de WebApi?

En Java, elimine elementos vacíos de una lista de cadenas

Cómo fusionar la columna de la fila del pie de página en jqgrid

JavaScript NTP time

¿Cómo jugar Storyboard en ViewModel?