Resultados da pesquisa a pedido "amazon-emr"

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

5 a resposta

Um nó mestre do EMR conhece seu ID de cluster?

3 a resposta

Lidando com um grande arquivo compactado com gzip no Spark

Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...

3 a resposta

Evite a criação de chaves _ $ folder $ no S3 com o hadoop (EMR)

Estou usando uma atividade EMR no pipeline de dados da AWS. Esta atividade EMR está executando um script de seção no cluster EMR. Ele pega o dínamo DB como entrada e armazena dados no S3. Esta é a etapa de EMR usada na Atividade de ...

1 a resposta

Mapeadores paralelos do AWS EMR?

Estou tentando determinar quantos nós preciso para meu cluster de EMR. Como parte das melhores práticas, as recomendações são: (Total de mapeadores necessários para o seu trabalho + Tempo necessário para processar) / (por capacidade da instância ...

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

2 a resposta

Como instalar uma GUI no Amazon AWS EC2 ou EMR com o Amazon AMI

Eu preciso executar um aplicativo que exija uma interface GUI para iniciar e configurar. Também preciso executar esse aplicativo no serviço EC2 e EMR da Amazon. O requisito de EMR significa que ele deve ser executado na Linux AMI da Amazon. Após ...

4 a resposta

Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público em http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670], e ...

2 a resposta

Como iniciar e configurar um cluster EMR usando boto

Estou tentando iniciar um cluster e executar um trabalho usando boto. Eu encontro muitos exemplos de criação de job_flows. Mas não posso, para a minha vida, encontrar um exemplo que mostre: Como definir o cluster a ser usado (por clusted_id)Como ...

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...