Resultados da pesquisa a pedido "emr"

Eu estou recebendo a seguinte excpetion em meus redutores:

boto amazon-web-services amazon-emr python

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

amazon-web-services pyspark apache-spark amazon-emr

2 a resposta

Aumentando o spark.yarn.executor.memoryOverhead

Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...

memory-management apache-spark pyspark

1 a resposta

Spark Container & Executor OOMs durante `replaceByKey`

Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...

amazon-emr bigdata parquet amazon-s3

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

apache-spark datastax guava

6 a resposta

Problema no Guava detectado # 1635, que indica que uma versão do Guava menor que 16.01 está em uso

Estou executando o trabalho spark no emr e usando o conector de dadostax para conectar-se ao cluster cassandra. Estou enfrentando problemas com o pote de goiaba. Encontre os detalhes abaixo. Estou usando abaixo os cassandra deps cqlsh 5.0.1 | ...

apache-spark pandas pyspark amazon-emr

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

amazon-web-services

3 a resposta

Como usar -libjars no aws emr?

Existem perguntas semelhantes no estouro de pilha, mas nenhuma delas responde à pergunta. O problema surge quando, conforme o link a seguir http://grepalex.com/2013/02/25/hadoop-libjars/ [http://grepalex.com/2013/02/25/hadoop-libjars/], ...

mapreduce amazon-emr hadoop

2 a resposta

Como MapReduce lê a partir de vários arquivos de entrada?

Estou desenvolvendo um código para ler dados e escrevê-lo

multithreading pyspark amazon-s3 apache-spark

2 a resposta

O Apache Spark lê S3: não é possível capturar objetos thread.lock

Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

Página 1 do 3

12 3

Resultados da pesquisa a pedido "emr"

Muitos arquivos abertos no EMR

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Aumentando o spark.yarn.executor.memoryOverhead

Tags populares

Spark Container & Executor OOMs durante `replaceByKey`

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

Problema no Guava detectado # 1635, que indica que uma versão do Guava menor que 16.01 está em uso

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Como usar -libjars no aws emr?

Como MapReduce lê a partir de vários arquivos de entrada?

O Apache Spark lê S3: não é possível capturar objetos thread.lock

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "emr"

Tags populares