Resultados da pesquisa a pedido "amazon-emr"

1 a resposta

Amazon Elastic MapReduce - inserção em massa do S3 para o DynamoDB é incrivelmente lenta

4 a resposta

avro error no AWS EMR

Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...

7 a resposta

Como manipular campos entre aspas (CSV) na importação de dados do S3 para o DynamoDB usando EMR / Hive

Eu estou tentando usar o EMR / Hive para importar dados do S3 para o DynamoDB. Meu arquivo CSV tem campos que estão entre aspas duplas e separados por vírgul...

3 a resposta

Lidando com um grande arquivo compactado com gzip no Spark

Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...

2 a resposta

Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios

Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

1 a resposta

O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster

Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...

2 a resposta

Como MapReduce lê a partir de vários arquivos de entrada?

Estou desenvolvendo um código para ler dados e escrevê-lo

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

2 a resposta

Executando o EMR Spark com várias contas S3

Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...