Resultados da pesquisa a pedido "emr"
Muitos arquivos abertos no EMR
Eu estou recebendo a seguinte excpetion em meus redutores:
O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster
Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...
Aumentando o spark.yarn.executor.memoryOverhead
Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...
Spark Container & Executor OOMs durante `replaceByKey`
Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...
Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?
De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...
Problema no Guava detectado # 1635, que indica que uma versão do Guava menor que 16.01 está em uso
Estou executando o trabalho spark no emr e usando o conector de dadostax para conectar-se ao cluster cassandra. Estou enfrentando problemas com o pote de goiaba. Encontre os detalhes abaixo. Estou usando abaixo os cassandra deps cqlsh 5.0.1 | ...
collect () ou toPandas () em um DataFrame grande no pyspark / EMR
Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...
Como usar -libjars no aws emr?
Existem perguntas semelhantes no estouro de pilha, mas nenhuma delas responde à pergunta. O problema surge quando, conforme o link a seguir http://grepalex.com/2013/02/25/hadoop-libjars/ [http://grepalex.com/2013/02/25/hadoop-libjars/], ...
Como MapReduce lê a partir de vários arquivos de entrada?
Estou desenvolvendo um código para ler dados e escrevê-lo
O Apache Spark lê S3: não é possível capturar objetos thread.lock
Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...