Spark: Несоответствующее число производительности при масштабировании количества ядер
Я делаю простой тест масштабирования на Spark с использованием теста сортировки - от 1 ядра до 8 ядер. Я заметил, что 8 ядер медленнее, чем 1 ядро.
//run spark using 1 core
spark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output
//run spark using 8 cores
spark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output
Каталоги ввода и вывода в каждом случае находятся в HDFS.
1 ядро: 80 секунд
8 ядер: 160 секунд
Я ожидаю, что производительность 8 ядер будет иметь x ускорение.