Resultados da pesquisa a pedido "amazon-emr"

12 a resposta

O relatório de aplicativo para application_ (state: ACCEPTED) nunca termina para o Spark Submit (com Spark 1.2.0 no YARN)

Estou executando o aplicativo kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estou correndo como abaixo comando na instância ...

2 a resposta

Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios

Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...

1 a resposta

O AWS CLI EMR obtém o ID da instância do nó principal e identifica-o

Desejo automatizar a execução de um cluster e posso usar tags para obter atributos de uma instância do EC2 como seu ID da instância. A documentação ...

4 a resposta

avro error no AWS EMR

Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...

1 a resposta

Por que o Yarn on EMR não aloca todos os nós para executar tarefas do Spark?

Estou executando um trabalho no Apache Spark no Amazon Elastic Map Reduce (EMR). Atualmente, estou executando o emr-4.1.0, que inclui o Amazon Hadoop 2.6.0 e o Spark 1.5.0. Quando inicio o trabalho, o YARN alocou corretamente todos os nós de ...

2 a resposta

Como executar o 2 EMR Spark Step simultaneamente?

Estou tentando executar duas etapas simultaneamente no EMR. No entanto, sempre recebo o primeiro passo em execução e o segundo pendent parte da minha configuração do Yarn é a seguint { "Classification": "capacity-scheduler", "Properties": ...

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...

10 a resposta

@ Pasta não será excluída no Amazon S3

Estou tentando excluir uma pasta criada como resultado de um trabalho do MapReduce. Outros arquivos no intervalo são excluídos, mas essa pasta não é excluída. Quando tento excluí-lo do console, a barra de progresso ao lado de seu status ...

2 a resposta

Amazon MapReduce melhores práticas para análise de logs

Estou analisando os logs de acesso gerados pelo Apache, Nginx, Darwin (servidor de streaming de vídeo) e agregando estatísticas para cada arquivo entregue por data / referenciador / agente do usuário. Toneladas de logs gerados a cada hora e ...