Explicación del método de plegado de la chispa RDD

Question

Jul 17, 2015, 03:11 PM

Explicación del método de plegado de la chispa RDD

Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece

sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)

Y dio un resultado sorprendente97.0.

Esto es bastante contra-intuitivo en comparación con la versión Scala defold

Array(2., 3.).fold(0.0)((p, v) => p+v*v)

que da la respuesta esperada13.0.

Parece bastante probable que haya cometido algunos errores difíciles en el código debido a la falta de comprensión. He leído sobre cómo se usa la función enRDD.fold() debe ser comunicativo; de lo contrario, el resultado puede depender de particiones, etc. Por ejemplo, si cambio el número de particiones a 1,

sc.parallelize(Array(2., 3.), 1).fold(0.0)((p, v) => p+v*v)

el código me dará169.0 en mi maquina!

¿Alguien puede explicar qué está sucediendo exactamente aquí?

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

Tema de seguridad del hilo con SimpleDateFormat

0 la respuesta

JavaScript setInterval no está correctamente vinculado al cierre correcto

0 la respuesta

¿Cómo obtener un objeto Core Data de un ID de objeto específico?

0 la respuesta

cómo comprobar si el dispositivo tiene luz de flash led android

0 la respuesta

Agregue un dominio a un sitio web de Azure a través del código

¡Eres muy activo! ¡Es genial!

Explicación del método de plegado de la chispa RDD

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares