Spark: número de desempenho inconsistente no número de núcleos de escala
Estou fazendo um teste de escala simples no Spark usando classificação de classificação - de 1 núcleo até 8 núcleos. Percebo que 8 núcleos são mais lentos que 1 núcleo.
//run spark using 1 core
spark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output
//run spark using 8 cores
spark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output
Os diretórios de entrada e saída, em cada caso, estão no HDFS.
1 núcleo: 80 segundos
8 núcleos: 160 segundos
Eu esperaria que o desempenho de 8 núcleos tivesse uma quantidade x de aceleração.