Resultados da pesquisa a pedido "emr"

4 a resposta

Muitos arquivos abertos no EMR

Eu estou recebendo a seguinte excpetion em meus redutores:

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

2 a resposta

Aumentando o spark.yarn.executor.memoryOverhead

Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...

1 a resposta

Spark Container & Executor OOMs durante `replaceByKey`

Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

6 a resposta

Problema no Guava detectado # 1635, que indica que uma versão do Guava menor que 16.01 está em uso

Estou executando o trabalho spark no emr e usando o conector de dadostax para conectar-se ao cluster cassandra. Estou enfrentando problemas com o pote de goiaba. Encontre os detalhes abaixo. Estou usando abaixo os cassandra deps cqlsh 5.0.1 | ...

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

3 a resposta

Como usar -libjars no aws emr?

Existem perguntas semelhantes no estouro de pilha, mas nenhuma delas responde à pergunta. O problema surge quando, conforme o link a seguir http://grepalex.com/2013/02/25/hadoop-libjars/ [http://grepalex.com/2013/02/25/hadoop-libjars/], ...

2 a resposta

Como MapReduce lê a partir de vários arquivos de entrada?

Estou desenvolvendo um código para ler dados e escrevê-lo

2 a resposta

O Apache Spark lê S3: não é possível capturar objetos thread.lock

Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...