Resultados da pesquisa a pedido "amazon-emr"
O relatório de aplicativo para application_ (state: ACCEPTED) nunca termina para o Spark Submit (com Spark 1.2.0 no YARN)
Estou executando o aplicativo kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estou correndo como abaixo comando na instância ...
Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios
Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...
O AWS CLI EMR obtém o ID da instância do nó principal e identifica-o
Desejo automatizar a execução de um cluster e posso usar tags para obter atributos de uma instância do EC2 como seu ID da instância. A documentação ...
avro error no AWS EMR
Estou usando o shift-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que usa o avro para transferência. Ler do Redshift é bom, enquanto escrevo, estou recebendo Caused by: ...
Por que o Yarn on EMR não aloca todos os nós para executar tarefas do Spark?
Estou executando um trabalho no Apache Spark no Amazon Elastic Map Reduce (EMR). Atualmente, estou executando o emr-4.1.0, que inclui o Amazon Hadoop 2.6.0 e o Spark 1.5.0. Quando inicio o trabalho, o YARN alocou corretamente todos os nós de ...
Como executar o 2 EMR Spark Step simultaneamente?
Estou tentando executar duas etapas simultaneamente no EMR. No entanto, sempre recebo o primeiro passo em execução e o segundo pendent parte da minha configuração do Yarn é a seguint { "Classification": "capacity-scheduler", "Properties": ...
erro @pyspark não existe no erro jvm ao inicializar o SparkContext
Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...
@ Pasta não será excluída no Amazon S3
Estou tentando excluir uma pasta criada como resultado de um trabalho do MapReduce. Outros arquivos no intervalo são excluídos, mas essa pasta não é excluída. Quando tento excluí-lo do console, a barra de progresso ao lado de seu status ...
Amazon MapReduce melhores práticas para análise de logs
Estou analisando os logs de acesso gerados pelo Apache, Nginx, Darwin (servidor de streaming de vídeo) e agregando estatísticas para cada arquivo entregue por data / referenciador / agente do usuário. Toneladas de logs gerados a cada hora e ...