Resultados da pesquisa a pedido "emr"

0 a resposta

Como configurar o Zeppelin para trabalhar com o cluster remoto de fios EMR

Eu tenho o cluster do Amazon EMR Hadoop v2.6 com o Spark 1.4.1, com o gerenciador de recursos Yarn. Desejo implantar o Zeppelin em uma máquina separada para permitir desativar o cluster EMR quando não houver trabalhos em execução. Eu tentei ...

0 a resposta

Erro de trabalho do Spark: YarnAllocator: Status de saída: -100. Diagnóstico: Contêiner liberado em um nó * perdido *

Estou executando um trabalho no AWS-EMR 4.1, Spark 1.5 com a seguinte conf: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 --conf ...

1 a resposta

hadoop copiando de hdfs para S3

Concluí com sucesso um trabalho de vetorização no Amazon EMR (usandoMahout no Elastic MapReduce como referência). Agora quero copiar os resultados do HDFS pa...

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

1 a resposta

Por que o Yarn on EMR não aloca todos os nós para executar tarefas do Spark?

Estou executando um trabalho no Apache Spark no Amazon Elastic Map Reduce (EMR). Atualmente, estou executando o emr-4.1.0, que inclui o Amazon Hadoop 2.6.0 e o Spark 1.5.0. Quando inicio o trabalho, o YARN alocou corretamente todos os nós de ...

1 a resposta

YARN: Qual é a diferença entre número de executores e núcleos de executores no Spark?

Estou aprendendo o Spark no AWS EMR. No processo, estou tentando entender a diferença entre o número de executores (- num-executors) e núcleos de executores (--executor-cores). Alguém pode me dizer aqui? Além disso, quando estou tentando enviar ...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

1 a resposta

Spark Container & Executor OOMs durante `replaceByKey`

Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

1 a resposta

Fluxo de ar - Instância de tarefa no operador EMR

No Airflow, estou enfrentando o problema de que preciso passar ojob_flow_id para um dos meus passos emr. Eu sou capaz de recuperar ojob_flow_id do operador, mas quando vou criar as etapas a serem enviadas ao cluster, otask_instance valor não está ...