Explicar a funcionalidade agregada no Spark

Question

Jan 30, 2015, 05:49 PM

python apache-spark lambda aggregate rdd

Explicar a funcionalidade agregada no Spark

Estou procurando uma explicação melhor da funcionalidade agregada que está disponível via spark em python.

O exemplo que eu tenho é o seguinte (usando o pyspark da versão 1.2.0 do Spark)

sc.parallelize([1,2,3,4]).aggregate(
  (0, 0),
  (lambda acc, value: (acc[0] + value, acc[1] + 1)),
  (lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1])))

Resultado:

(10, 4)

Eu recebo o resultado esperado(10,4) que é soma de1+2+3+4 e 4 elementos. Se eu alterar o valor inicial passado para a função agregada para(1,0) de(0,0) Eu recebo o seguinte resultado

sc.parallelize([1,2,3,4]).aggregate(
    (1, 0),
    (lambda acc, value: (acc[0] + value, acc[1] + 1)),
    (lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1])))

Resultado: