Повышение spark.yarn.executor.memoryOverhead

Question

Jun 29, 2016, 03:58 PM

amazon-web-services pyspark amazon-emr emr apache-spark

Повышение spark.yarn.executor.memoryOverhead

Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке:

Reason: Container killed by YARN for exceeding memory limits.
5.5 GB of 5.5 GB physical memory used.
Consider boosting spark.yarn.executor.memoryOverhead.

Так что я Google, как это сделать, и обнаружил, что я должен пройти поspark.yarn.executor.memoryOverhead параметр с флагом --conf. Я делаю это так:

aws emr add-steps\
--cluster-id %s\
--profile EMR\
--region us-west-2\
--steps Name=Spark,Jar=command-runner.jar,\
Args=[\
/usr/lib/spark/bin/spark-submit,\
--deploy-mode,client,\
/home/hadoop/%s,\
--executor-memory,100g,\
--num-executors,3,\
--total-executor-cores,1,\
--conf,'spark.python.worker.memory=1200m',\
--conf,'spark.yarn.executor.memoryOverhead=15300',\
],ActionOnFailure=CONTINUE" % (cluster_id,script_name)\

Но когда я перезапускаю работу, она продолжает выдавать мне одно и то же сообщение об ошибке, с5.5 GB of 5.5 GB physical memory usedчто означает, что моя память не увеличилась .. какие-либо намеки на то, что я делаю неправильно?

РЕДАКТИРОВАТЬ

Вот подробности о том, как я изначально создал кластер:

aws emr create-cluster\
--name "Spark"\
--release-label emr-4.7.0\
--applications Name=Spark\
--bootstrap-action Path=s3://emr-code-matgreen/bootstraps/install_python_modules.sh\
--ec2-attributes KeyName=EMR2,InstanceProfile=EMR_EC2_DefaultRole\
--log-uri s3://emr-logs-zerex\
--instance-type r3.xlarge\
--instance-count 4\
--profile EMR\
--service-role EMR_DefaultRole\
--region us-west-2'

Благодарю.

Повышение spark.yarn.executor.memoryOverhead

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Повышение spark.yarn.executor.memoryOverhead

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы