Resultados da pesquisa a pedido "amazon-emr"

2 a resposta

Pig UDF em execução no EMR do AWS com java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc

Estou desenvolvendo um aplicativo que tenta ler o arquivo de log armazenado em dólares do S3 e analisá-lo usando o Elastic MapReduce. Atual o arquivo de log ...

2 a resposta

Como MapReduce lê a partir de vários arquivos de entrada?

Estou desenvolvendo um código para ler dados e escrevê-lo

2 a resposta

Como iniciar e configurar um cluster EMR usando boto

Estou tentando iniciar um cluster e executar um trabalho usando boto. Eu encontro muitos exemplos de criação de job_flows. Mas não posso, para a minha vida, encontrar um exemplo que mostre: Como definir o cluster a ser usado (por clusted_id)Como ...

2 a resposta

Aumentando o spark.yarn.executor.memoryOverhead

Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...

2 a resposta

Executando o EMR Spark com várias contas S3

Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...

2 a resposta

Como instalar uma GUI no Amazon AWS EC2 ou EMR com o Amazon AMI

Eu preciso executar um aplicativo que exija uma interface GUI para iniciar e configurar. Também preciso executar esse aplicativo no serviço EC2 e EMR da Amazon. O requisito de EMR significa que ele deve ser executado na Linux AMI da Amazon. Após ...

2 a resposta

Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios

Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...

2 a resposta

Como executar o 2 EMR Spark Step simultaneamente?

Estou tentando executar duas etapas simultaneamente no EMR. No entanto, sempre recebo o primeiro passo em execução e o segundo pendent parte da minha configuração do Yarn é a seguint { "Classification": "capacity-scheduler", "Properties": ...

2 a resposta

Amazon MapReduce melhores práticas para análise de logs

Estou analisando os logs de acesso gerados pelo Apache, Nginx, Darwin (servidor de streaming de vídeo) e agregando estatísticas para cada arquivo entregue por data / referenciador / agente do usuário. Toneladas de logs gerados a cada hora e ...

3 a resposta

O Spark SQL falha porque "O pool constante cresceu além do limite da JVM de 0xFFFF"

Estou executando esse código no EMR 4.6.0 + Spark 1.6.1: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...