¿Por qué el número de particiones después de groupBy 200? ¿Por qué este 200 no es otro número?
Es Spark 2.2.0-INSTANTÁNEA.
¿Por qué es el número de particiones despuésgroupBy
transformación 200 en el siguiente ejemplo?
scala> spark.range(5).groupByKey(_ % 5).count.rdd.getNumPartitions
res0: Int = 200
¿Qué tiene de especial?200
? ¿Por qué no algún otro número como1024
?
Me han hablado de¿Por qué la operación groupByKey tiene siempre 200 tareas? que pregunta específicamente sobregroupByKey
, pero la pregunta es sobre el "misterio" detrás de elegir200
por defecto, no por qué hay 200 particiones por defecto.