Resultados da pesquisa a pedido "amazon-emr"

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

amazon-dynamodb hive amazon-s3 amazon-web-services

7 a resposta

Como manipular campos entre aspas (CSV) na importação de dados do S3 para o DynamoDB usando EMR / Hive

Eu estou tentando usar o EMR / Hive para importar dados do S3 para o DynamoDB. Meu arquivo CSV tem campos que estão entre aspas duplas e separados por vírgul...

hive amazon-dynamodb amazon-s3

1 a resposta

Amazon Elastic MapReduce - inserção em massa do S3 para o DynamoDB é incrivelmente lenta

hadoop mapreduce

4 a resposta

Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público em http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670], e ...

amazon-s3 apache-spark

2 a resposta

Executando o EMR Spark com várias contas S3

Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...

hadoop logging amazon-s3 hadoop-streaming

2 a resposta

Amazon MapReduce melhores práticas para análise de logs

Estou analisando os logs de acesso gerados pelo Apache, Nginx, Darwin (servidor de streaming de vídeo) e agregando estatísticas para cada arquivo entregue por data / referenciador / agente do usuário. Toneladas de logs gerados a cada hora e ...

hadoop avro scala java

4 a resposta

avro error no AWS EMR

Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...

2 a resposta

Podemos adicionar mais instâncias do Amazon Elastic Mapreduce em instâncias existentes do Amazon Elastic Mapreduce?

Eu sou novo no Amazon Services e enfrento alguns problemas.Suponha que estou executando algum fluxo de trabalho no Amazon Elastic Mapreduce com um total de 3...

python apache-spark python-3.x pyspark

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...

Página 1 do 3

12 3

Resultados da pesquisa a pedido "amazon-emr"

Um nó mestre do EMR conhece seu ID de cluster?

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

Como manipular campos entre aspas (CSV) na importação de dados do S3 para o DynamoDB usando EMR / Hive

Tags populares

Amazon Elastic MapReduce - inserção em massa do S3 para o DynamoDB é incrivelmente lenta

Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Executando o EMR Spark com várias contas S3

Amazon MapReduce melhores práticas para análise de logs

avro error no AWS EMR

Podemos adicionar mais instâncias do Amazon Elastic Mapreduce em instâncias existentes do Amazon Elastic Mapreduce?

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "amazon-emr"

Tags populares