Spark: número de rendimiento inconsistente en la escala del número de núcleos
Estoy haciendo una prueba de escala simple en Spark usando benchmark de clasificación: desde 1 núcleo, hasta 8 núcleos. Noto que 8 núcleos es más lento que 1 núcleo.
//run spark using 1 core
spark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output
//run spark using 8 cores
spark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output
Los directorios de entrada y salida en cada caso, están en HDFS.
1 núcleo: 80 segundos
8 núcleos: 160 segundos
Esperaría que el rendimiento de 8 núcleos tenga x cantidad de aceleración.