Resultados da pesquisa a pedido "emr"
Muitos arquivos abertos no EMR
Eu estou recebendo a seguinte excpetion em meus redutores:
no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz
Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...
Como definir uma variável de ambiente personalizada no EMR para estar disponível para um aplicativo Spark
Preciso definir uma variável de ambiente personalizada no EMR para estar disponível ao executar um aplicativo spark. Eu tentei adicionar isso: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ { "Classification": ...
hadoop copiando de hdfs para S3
Concluí com sucesso um trabalho de vetorização no Amazon EMR (usandoMahout no Elastic MapReduce como referência). Agora quero copiar os resultados do HDFS pa...
Spark - Que tipo de instância é preferido para o cluster do AWS EMR? [fechadas]
Estou executando alguns algoritmos de aprendizado de máquina no cluster EMR Spark. Estou curioso para saber que tipo de instância usar para obter o melhor ganho de custo / desempenho. Para o mesmo nível de preços, posso escolher entre: vCPU ECU ...
Erro de trabalho do Spark: YarnAllocator: Status de saída: -100. Diagnóstico: Contêiner liberado em um nó * perdido *
Estou executando um trabalho no AWS-EMR 4.1, Spark 1.5 com a seguinte conf: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 --conf ...
Como configurar o Zeppelin para trabalhar com o cluster remoto de fios EMR
Eu tenho o cluster do Amazon EMR Hadoop v2.6 com o Spark 1.4.1, com o gerenciador de recursos Yarn. Desejo implantar o Zeppelin em uma máquina separada para permitir desativar o cluster EMR quando não houver trabalhos em execução. Eu tentei ...
O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster
Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...
Fluxo de ar - Instância de tarefa no operador EMR
No Airflow, estou enfrentando o problema de que preciso passar ojob_flow_id para um dos meus passos emr. Eu sou capaz de recuperar ojob_flow_id do operador, mas quando vou criar as etapas a serem enviadas ao cluster, otask_instance valor não está ...
Como especificar configurações mapred e opções de java com jar personalizado na CLI usando o EMR da Amazo
Gostaria de saber como especificar configurações de mapreduce como mapred.task.timeout, mapred.min.split.size etc., ao executar um trabalho de streaming usando jar personalizad Podemos usar a seguinte maneira de especificar essas ...