Resultados da pesquisa a pedido "amazon-emr"

2 a resposta

Executando o EMR Spark com várias contas S3

Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...

3 a resposta

O Spark SQL falha porque "O pool constante cresceu além do limite da JVM de 0xFFFF"

Estou executando esse código no EMR 4.6.0 + Spark 1.6.1: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...

2 a resposta

Aumentando o spark.yarn.executor.memoryOverhead

Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...

1 a resposta

Por que o Yarn on EMR não aloca todos os nós para executar tarefas do Spark?

Estou executando um trabalho no Apache Spark no Amazon Elastic Map Reduce (EMR). Atualmente, estou executando o emr-4.1.0, que inclui o Amazon Hadoop 2.6.0 e o Spark 1.5.0. Quando inicio o trabalho, o YARN alocou corretamente todos os nós de ...

4 a resposta

avro error no AWS EMR

Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...

12 a resposta

O relatório de aplicativo para application_ (state: ACCEPTED) nunca termina para o Spark Submit (com Spark 1.2.0 no YARN)

Estou executando o aplicativo kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estou correndo como abaixo comando na instância ...

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

2 a resposta

Como iniciar e configurar um cluster EMR usando boto

Estou tentando iniciar um cluster e executar um trabalho usando boto. Eu encontro muitos exemplos de criação de job_flows. Mas não posso, para a minha vida, encontrar um exemplo que mostre: Como definir o cluster a ser usado (por clusted_id)Como ...

5 a resposta

Um nó mestre do EMR conhece seu ID de cluster?

2 a resposta

Como MapReduce lê a partir de vários arquivos de entrada?

Estou desenvolvendo um código para ler dados e escrevê-lo