Apache Hadoop Yarn - Subutilização de núcleos

Question

Apr 30, 2015, 12:04 PM

hadoop yarn resourcemanager apache-spark

Apache Hadoop Yarn - Subutilização de núcleos

Não importa o quanto eu mexa nas configurações doyarn-site.xml ou seja, usando todas as opções abaixo

yarn.scheduler.minimum-allocation-vcores
yarn.nodemanager.resource.memory-mb
yarn.nodemanager.resource.cpu-vcores
yarn.scheduler.maximum-allocation-mb
yarn.scheduler.maximum-allocation-vcores

Ainda não consigo obter meu aplicativo, ou seja, o Spark para utilizar todos os núcleos no cluster. Os executores spark parecem estar ocupando corretamente toda a memória disponível, mas cada executor continua usando um único núcleo e não mais.

Aqui estão as opções configuradas emspark-defaults.conf

spark.executor.cores                    3
spark.executor.memory                   5100m
spark.yarn.executor.memoryOverhead      800
spark.driver.memory                     2g
spark.yarn.driver.memoryOverhead        400
spark.executor.instances                28
spark.reducer.maxMbInFlight             120
spark.shuffle.file.buffer.kb            200

Notar quespark.executor.cores está definido como 3, mas não funciona. Como faço para corrigir isso?