Resultados da pesquisa a pedido "amazon-emr"

5 a resposta

Um nó mestre do EMR conhece seu ID de cluster?

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

7 a resposta

Como manipular campos entre aspas (CSV) na importação de dados do S3 para o DynamoDB usando EMR / Hive

Eu estou tentando usar o EMR / Hive para importar dados do S3 para o DynamoDB. Meu arquivo CSV tem campos que estão entre aspas duplas e separados por vírgul...

1 a resposta

Amazon Elastic MapReduce - inserção em massa do S3 para o DynamoDB é incrivelmente lenta

4 a resposta

Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público em http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670], e ...

2 a resposta

Executando o EMR Spark com várias contas S3

Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...

2 a resposta

Amazon MapReduce melhores práticas para análise de logs

Estou analisando os logs de acesso gerados pelo Apache, Nginx, Darwin (servidor de streaming de vídeo) e agregando estatísticas para cada arquivo entregue por data / referenciador / agente do usuário. Toneladas de logs gerados a cada hora e ...

4 a resposta

avro error no AWS EMR

Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...

2 a resposta

Podemos adicionar mais instâncias do Amazon Elastic Mapreduce em instâncias existentes do Amazon Elastic Mapreduce?

Eu sou novo no Amazon Services e enfrento alguns problemas.Suponha que estou executando algum fluxo de trabalho no Amazon Elastic Mapreduce com um total de 3...

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...