Resultados da pesquisa a pedido "amazon-emr"
Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?
De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...
Como manipular campos entre aspas (CSV) na importação de dados do S3 para o DynamoDB usando EMR / Hive
Eu estou tentando usar o EMR / Hive para importar dados do S3 para o DynamoDB. Meu arquivo CSV tem campos que estão entre aspas duplas e separados por vírgul...
Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?
Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público em http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670], e ...
Executando o EMR Spark com várias contas S3
Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...
Amazon MapReduce melhores práticas para análise de logs
Estou analisando os logs de acesso gerados pelo Apache, Nginx, Darwin (servidor de streaming de vídeo) e agregando estatísticas para cada arquivo entregue por data / referenciador / agente do usuário. Toneladas de logs gerados a cada hora e ...
avro error no AWS EMR
Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...
Podemos adicionar mais instâncias do Amazon Elastic Mapreduce em instâncias existentes do Amazon Elastic Mapreduce?
Eu sou novo no Amazon Services e enfrento alguns problemas.Suponha que estou executando algum fluxo de trabalho no Amazon Elastic Mapreduce com um total de 3...
erro @pyspark não existe no erro jvm ao inicializar o SparkContext
Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...