Apache Spark: map vs mapPartitions?

Question

Jan 17, 2014, 12:41 PM

Apache Spark: map vs mapPartitions?

Qual é a diferença entre umRDD's map emapPartitions método? E fazflatMap Comportar-se comomap ou comomapPartitions? Obrigado.

(editar) ou seja, qual é a diferença (semanticamente ou em termos de execução) entre

  def map[A, B](rdd: RDD[A], fn: (A => B))
               (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
    rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) },
      preservesPartitioning = true)
  }

E:

  def map[A, B](rdd: RDD[A], fn: (A => B))
               (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
    rdd.map(fn)
  }

questionAnswers(3)

Perguntas populares

0 a resposta

Como mesclar arquivos CSV em um único arquivo, sob condição e adicionando o nome do arquivo como uma colun

0 a resposta

O que é XMPP e como posso usá-lo em um aplicativo de bate-papo iOS?

0 a resposta

Uso do timer no Windows Service

0 a resposta

como diferenciar evento de clique único e evento de clique duplo?

0 a resposta

Caminho do arquivo de imagem do Android a partir do URI

Você é muito ativo! É ótimo!

Apache Spark: map vs mapPartitions?

questionAnswers(3)

yourAnswerToTheQuestion

Perguntas populares