A maneira mais fácil de instalar dependências do Python nos nós do executor do Spark?

Question

Apr 07, 2015, 05:35 PM

shared-libraries hadoop dependencies apache-spark distributed-computing

A maneira mais fácil de instalar dependências do Python nos nós do executor do Spark?

Entendo que você pode enviar arquivos individuais como dependências com os programas Python Spark. Mas e as bibliotecas completas (por exemplo, numpy)?

O Spark tem uma maneira de usar um gerenciador de pacotes fornecido (por exemplo, pip) para instalar dependências da biblioteca? Ou isso precisa ser feito manualmente antes da execução dos programas Spark?

Se a resposta for manual, quais são as melhores práticas para sincronizar bibliotecas (caminho da instalação, versão etc.) em um grande número de nós distribuídos?