Por que o número de partições após o groupBy 200? Por que este número 200 não é outro número?

Question

Dec 28, 2016, 10:44 AM

Por que o número de partições após o groupBy 200? Por que este número 200 não é outro número?

É o INSTANTÂNEO do faísca 2.2.0.

Por que o número de partições apósgroupBy transformação 200 no exemplo a seguir?

scala> spark.range(5).groupByKey(_ % 5).count.rdd.getNumPartitions
res0: Int = 200

O que há de tão especial200? Por que não outro número como1024?

Eu fui informado sobrePor que a operação groupByKey tem sempre 200 tarefas? que pergunta especificamente sobregroupByKey, mas a pergunta é sobre o "mistério" por trás da escolha200 como padrão, não por que existem 200 partições por padrão.