Resultados da pesquisa a pedido "amazon-emr"
Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?
De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...
Lidando com um grande arquivo compactado com gzip no Spark
Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...
Evite a criação de chaves _ $ folder $ no S3 com o hadoop (EMR)
Estou usando uma atividade EMR no pipeline de dados da AWS. Esta atividade EMR está executando um script de seção no cluster EMR. Ele pega o dínamo DB como entrada e armazena dados no S3. Esta é a etapa de EMR usada na Atividade de ...
Mapeadores paralelos do AWS EMR?
Estou tentando determinar quantos nós preciso para meu cluster de EMR. Como parte das melhores práticas, as recomendações são: (Total de mapeadores necessários para o seu trabalho + Tempo necessário para processar) / (por capacidade da instância ...
collect () ou toPandas () em um DataFrame grande no pyspark / EMR
Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...
Como instalar uma GUI no Amazon AWS EC2 ou EMR com o Amazon AMI
Eu preciso executar um aplicativo que exija uma interface GUI para iniciar e configurar. Também preciso executar esse aplicativo no serviço EC2 e EMR da Amazon. O requisito de EMR significa que ele deve ser executado na Linux AMI da Amazon. Após ...
Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?
Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público em http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670], e ...
Como iniciar e configurar um cluster EMR usando boto
Estou tentando iniciar um cluster e executar um trabalho usando boto. Eu encontro muitos exemplos de criação de job_flows. Mas não posso, para a minha vida, encontrar um exemplo que mostre: Como definir o cluster a ser usado (por clusted_id)Como ...
O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster
Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...