Explicação do método de dobra do spark RDD

Question

Jul 17, 2015, 03:11 PM

Explicação do método de dobra do spark RDD

Estou executando o Spark-1.4.0 pré-criado para o Hadoop-2.4 (no modo local) para calcular a soma dos quadrados de um DoubleRDD. Meu código Scala parece

sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)

E deu um resultado surpreendente97.0.

Isso é bastante contra-intuitivo em comparação com a versão Scala dofold

Array(2., 3.).fold(0.0)((p, v) => p+v*v)

o que dá a resposta esperada13.0.

Parece bastante provável que cometi alguns erros complicados no código devido a uma falta de entendimento. Eu li sobre como a função usada noRDD.fold() deve ser comunicativo, caso contrário, o resultado pode depender de partições e etc. Por exemplo, se eu alterar o número de partições para 1,

sc.parallelize(Array(2., 3.), 1).fold(0.0)((p, v) => p+v*v)

o código vai me dar169.0 na minha máquina!

Alguém pode explicar o que exatamente está acontecendo aqui?

questionAnswers(1)

Perguntas populares

0 a resposta

Caixa de seleção do PHP Keep marcada após o envio do formulário

0 a resposta

Adiciona vline ao enredo existente e aparece na legenda ggplot2?

0 a resposta

Usando o StageWebView.loadString () para exibir o Google Maps no AIR para iOS

0 a resposta

UITabBarController não responde no simulador do iPhone 5: tela retina de 4 polegadas

0 a resposta

Concurrency Melhores práticas do ASP.NET Melhores práticas

Você é muito ativo! É ótimo!

Explicação do método de dobra do spark RDD

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares