Por que o número de partições após o groupBy 200? Por que este número 200 não é outro número?
É o INSTANTÂNEO do faísca 2.2.0.
Por que o número de partições apósgroupBy
transformação 200 no exemplo a seguir?
scala> spark.range(5).groupByKey(_ % 5).count.rdd.getNumPartitions
res0: Int = 200
O que há de tão especial200
? Por que não outro número como1024
?
Eu fui informado sobrePor que a operação groupByKey tem sempre 200 tarefas? que pergunta especificamente sobregroupByKey
, mas a pergunta é sobre o "mistério" por trás da escolha200
como padrão, não por que existem 200 partições por padrão.