Apache Spark: map vs mapPartitions?

Question

Jan 17, 2014, 12:41 PM

Apache Spark: map vs mapPartitions?

¿Cuál es la diferencia entre unaRDD's map ymapPartitions ¿método? Y lo haceflatMap comportarse comomap o comomapPartitions? Gracias.

(Editar) es decir, cuál es la diferencia (ya sea semánticamente o en términos de ejecución) entre

  def map[A, B](rdd: RDD[A], fn: (A => B))
               (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
    rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) },
      preservesPartitioning = true)
  }

Y:

  def map[A, B](rdd: RDD[A], fn: (A => B))
               (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
    rdd.map(fn)
  }

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

¿Cuál es el tipo de retorno de mi consulta linq?

0 la respuesta

Uso de moment.js para convertir la fecha en la cadena "MM / dd / aaaa"

0 la respuesta

Quite la cláusula límite de MySQL Workbench

0 la respuesta

Cómo obtener tipos de argumentos de la función en Typecript [duplicado]

0 la respuesta

Mantener el valor en forma después de enviar PHP

¡Eres muy activo! ¡Es genial!

Apache Spark: map vs mapPartitions?

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares