Como o Spark em execução no YARN explica o uso de memória do Python?

Question

Oct 05, 2016, 06:03 PM

Como o Spark em execução no YARN explica o uso de memória do Python?

Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python.

Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde?

Em particular, eu tenho um aplicativo PySpark comspark.executor.memory=25G, spark.executor.cores=4 e encontro frequentesContêiner morto pelo YARN por exceder os limites de memória. erros ao executar ummap em um RDD. Como opera em uma quantidade bastante grande de objetos Python complexos, espera-se que consuma uma quantidade não trivial de memória, mas não 25 GB. Como devo configurar as diferentes variáveis de memória para uso com código Python pesado?