Resultados da pesquisa a pedido "emr"

4 a resposta

Muitos arquivos abertos no EMR

Eu estou recebendo a seguinte excpetion em meus redutores:

2 a resposta

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...

2 a resposta

Como definir uma variável de ambiente personalizada no EMR para estar disponível para um aplicativo Spark

Preciso definir uma variável de ambiente personalizada no EMR para estar disponível ao executar um aplicativo spark. Eu tentei adicionar isso: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ { "Classification": ...

1 a resposta

hadoop copiando de hdfs para S3

Concluí com sucesso um trabalho de vetorização no Amazon EMR (usandoMahout no Elastic MapReduce como referência). Agora quero copiar os resultados do HDFS pa...

2 a resposta

Spark - Que tipo de instância é preferido para o cluster do AWS EMR? [fechadas]

Estou executando alguns algoritmos de aprendizado de máquina no cluster EMR Spark. Estou curioso para saber que tipo de instância usar para obter o melhor ganho de custo / desempenho. Para o mesmo nível de preços, posso escolher entre: vCPU ECU ...

0 a resposta

Erro de trabalho do Spark: YarnAllocator: Status de saída: -100. Diagnóstico: Contêiner liberado em um nó * perdido *

Estou executando um trabalho no AWS-EMR 4.1, Spark 1.5 com a seguinte conf: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 --conf ...

0 a resposta

Como configurar o Zeppelin para trabalhar com o cluster remoto de fios EMR

Eu tenho o cluster do Amazon EMR Hadoop v2.6 com o Spark 1.4.1, com o gerenciador de recursos Yarn. Desejo implantar o Zeppelin em uma máquina separada para permitir desativar o cluster EMR quando não houver trabalhos em execução. Eu tentei ...

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

1 a resposta

Fluxo de ar - Instância de tarefa no operador EMR

No Airflow, estou enfrentando o problema de que preciso passar ojob_flow_id para um dos meus passos emr. Eu sou capaz de recuperar ojob_flow_id do operador, mas quando vou criar as etapas a serem enviadas ao cluster, otask_instance valor não está ...

4 a resposta

Como especificar configurações mapred e opções de java com jar personalizado na CLI usando o EMR da Amazo

Gostaria de saber como especificar configurações de mapreduce como mapred.task.timeout, mapred.min.split.size etc., ao executar um trabalho de streaming usando jar personalizad Podemos usar a seguinte maneira de especificar essas ...