Resultados da pesquisa a pedido "amazon-emr"

1 a resposta

Amazon Elastic MapReduce - inserção em massa do S3 para o DynamoDB é incrivelmente lenta

1 a resposta

Hadoop não-divisível TextInputFormat

1 a resposta

hadoop copiando de hdfs para S3

Concluí com sucesso um trabalho de vetorização no Amazon EMR (usandoMahout no Elastic MapReduce como referência). Agora quero copiar os resultados do HDFS pa...

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

1 a resposta

Por que o Yarn on EMR não aloca todos os nós para executar tarefas do Spark?

Estou executando um trabalho no Apache Spark no Amazon Elastic Map Reduce (EMR). Atualmente, estou executando o emr-4.1.0, que inclui o Amazon Hadoop 2.6.0 e o Spark 1.5.0. Quando inicio o trabalho, o YARN alocou corretamente todos os nós de ...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

1 a resposta

Mapeadores paralelos do AWS EMR?

Estou tentando determinar quantos nós preciso para meu cluster de EMR. Como parte das melhores práticas, as recomendações são: (Total de mapeadores necessários para o seu trabalho + Tempo necessário para processar) / (por capacidade da instância ...

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

1 a resposta

O AWS CLI EMR obtém o ID da instância do nó principal e identifica-o

Desejo automatizar a execução de um cluster e posso usar tags para obter atributos de uma instância do EC2 como seu ID da instância. A documentação ...

2 a resposta

Podemos adicionar mais instâncias do Amazon Elastic Mapreduce em instâncias existentes do Amazon Elastic Mapreduce?

Eu sou novo no Amazon Services e enfrento alguns problemas.Suponha que estou executando algum fluxo de trabalho no Amazon Elastic Mapreduce com um total de 3...