Spark: diferencia de semántica entre reduce y reduceByKey

Question

Feb 04, 2016, 04:34 PM

Spark: diferencia de semántica entre reduce y reduceByKey

En la documentación de Spark, dice que el método RDDreduce requiere una función binaria asociativa Y conmutativa.

Sin embargo, el métodoreduceByKey SOLO requiere una función binaria asociativa.

sc.textFile("file4kB", 4)

Hice algunas pruebas, y aparentemente es el comportamiento que obtengo. ¿Por qué esta diferencia? Por quereduceByKey asegúrese de que la función binaria se aplique siempre en cierto orden (para adaptarse a la falta de conmutatividad) cuandoreduce ¿no?

Ejemplo, si carga un texto (pequeño) con 4 particiones (mínimo):

val r = sc.textFile("file4k", 4)

entonces:

r.reduce(_ + _)

devuelve una cadena donde las partes no siempre están en el mismo orden, mientras que:

r.map(x => (1,x)).reduceByKey(_ + _).first

siempre devuelve la misma cadena (donde todo está en el mismo orden que en el archivo original).

(Lo verifiqué conr.glom y el contenido del archivo se extiende en 4 particiones, no hay una partición vacía).

Respuestas a la pregunta(2)

Preguntas populares

0 la respuesta

Cómo agregar un servicio de escucha de eventos a HTML5 Video Poster Image Load Event

0 la respuesta

Cómo abortar un hilo cuando está durmiendo

0 la respuesta

Error al enviar correo electrónico con gmail

0 la respuesta

El cuadro de diálogo iFrame en jQuery UI causa una barra de desplazamiento horizontal en el padre

0 la respuesta

Server Side PHP Long polling

¡Eres muy activo! ¡Es genial!

Spark: diferencia de semántica entre reduce y reduceByKey

Respuestas a la pregunta(2)

Su respuesta a la pregunta

Preguntas populares