Resultados da pesquisa a pedido "amazon-emr"
avro error no AWS EMR
Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...
Como manipular campos entre aspas (CSV) na importação de dados do S3 para o DynamoDB usando EMR / Hive
Eu estou tentando usar o EMR / Hive para importar dados do S3 para o DynamoDB. Meu arquivo CSV tem campos que estão entre aspas duplas e separados por vírgul...
Lidando com um grande arquivo compactado com gzip no Spark
Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...
Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios
Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...
Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?
De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...
O AWS EMR executa o script de "inicialização" em todas as máquinas já em execução no cluster
Eu tenho um cluster EMR que está sendo executado 24/7. Não consigo desligá-lo e iniciar o novo. O que eu gostaria de fazer é executar algo como a ação de auto-inicialização no cluster já em execução, de preferência usando Python e boto ou AWS ...
Como MapReduce lê a partir de vários arquivos de entrada?
Estou desenvolvendo um código para ler dados e escrevê-lo
collect () ou toPandas () em um DataFrame grande no pyspark / EMR
Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...
Executando o EMR Spark com várias contas S3
Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...