Obtenga el valor máximo para cada clave en un Spark RDD

Question

May 04, 2016, 02:17 AM

¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en una chispa RDD?

Estoy usando python y probé Math max, mapeo y reducción por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un UDF?

Tengo en formato RDD:

[(v, 3),
 (v, 1),
 (v, 1),
 (w, 7),
 (w, 1),
 (x, 3),
 (y, 1),
 (y, 1),
 (y, 2),
 (y, 3)]

Y necesito volver:

[(v, 3),
 (w, 7),
 (x, 3),
 (y, 3)]

Los lazos pueden devolver el primer valor o al azar.

Respuestas a la pregunta(1)

Copie una imagen del caché del control del navegador web presente en VB.NET

¿Cómo guardar una transmisión de video RTSP en un archivo MP4 a través de gstreamer?

No se puede ejecutar la macro ... puede que la macro no esté disponible en este libro de trabajo

¿Procesamiento de imágenes con lockbits, alternativa a getpixel?

Cambie el tamaño de UIImageView para que coincida con la imagen con AutoLayout