Explicación del método de plegado de la chispa RDD

Question

Jul 17, 2015, 03:11 PM

Explicación del método de plegado de la chispa RDD

Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece

sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)

Y dio un resultado sorprendente97.0.

Esto es bastante contra-intuitivo en comparación con la versión Scala defold

Array(2., 3.).fold(0.0)((p, v) => p+v*v)

que da la respuesta esperada13.0.

Parece bastante probable que haya cometido algunos errores difíciles en el código debido a la falta de comprensión. He leído sobre cómo se usa la función enRDD.fold() debe ser comunicativo; de lo contrario, el resultado puede depender de particiones, etc. Por ejemplo, si cambio el número de particiones a 1,

sc.parallelize(Array(2., 3.), 1).fold(0.0)((p, v) => p+v*v)

el código me dará169.0 en mi maquina!

¿Alguien puede explicar qué está sucediendo exactamente aquí?

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

¿Existe una característica del compilador para inyectar una entrada de función personalizada y un código de salida?

0 la respuesta

Sube un archivo XML grande con la biblioteca de solicitudes de Python

0 la respuesta

Cálculo del tiempo de carga de la página en JavaScript

0 la respuesta

java.lang.ClassNotFoundException: javax.persistence.spi.PersistenceProvider

0 la respuesta

PDF.JS en aplicaciones móviles Problema de acceso-control-permitir-origen

¡Eres muy activo! ¡Es genial!

Explicación del método de plegado de la chispa RDD

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares