Resultados da pesquisa a pedido "mapreduce"

9 a resposta

IllegalAccessError para o StopWatch da goiaba de org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus

Estou tentando executar o aplicativo spark pequeno e estou recebendo a seguinte exceção: Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from ...

12 a resposta

Conte linhas em arquivos grandes

Eu costumo trabalhar com arquivos de texto de ~ 20 Gb e me vejo contando o número de linhas em um determinado arquivo com muita freqüência.O jeito que eu faç...

12 a resposta

Escrevendo o código MApreduce para contar o número de registros

Quero escrever um código de mapreduce para contar o número de registros em determinado arquivo CSV. Não estou entendendo o que fazer no mapa e o que fazer para reduzir como devo resolver isso alguém pode sugerir algo?

12 a resposta

Chamar um trabalho de mapreduce a partir de um programa java simples

Estive tentando chamar um trabalho de mapreduce a partir de um programa java simples no mesmo pacote. Tentei consultar o arquivo jar mapreduce no meu programa java e chamá-lo usando orunJar(String args[]) passando também os caminhos de entrada e ...

13 a resposta

Encadeando várias tarefas do MapReduce no Hadoop

Em muitas situações da vida real em que você aplica o MapReduce, os algoritmos finais acabam sendo várias etapas do MapReduce. ou seja, Mapa1, Reduzir1, Mapa2, Reduzir2 e assim por diante. Portanto, você tem a saída da última redução necessária ...

15 a resposta

Definir o número de tarefas de mapa e reduzir tarefas

No momento, estou executando um trabalho. Corrigi o número de tarefas do mapa para 20, mas obtendo um número maior. Também defino a tarefa de redução como zero, mas ainda estou recebendo um número diferente de zero. O tempo total para a ...

16 a resposta

Hadoop performance

Instalei o hadoop 1.0.0 e experimentei o exemplo de contagem de palavras (cluster de nó único). Demorou 2m 48s para concluir. Então tentei o programa padrão de contagem de palavras linux, que é executado em 10 milissegundos no mesmo conjunto ...