Resultados da pesquisa a pedido "mapreduce"

1 a resposta

Estender SequenceFileInputFormat para incluir o nome do arquivo + deslocamento

Eu gostaria de ser capaz de criar um InputFormat personalizado que lê arquivos de seqüência, mas adicionalmente expõe o caminho do arquivo e deslocamento den...

1 a resposta

suporte a gzip no Spark

7 a resposta

Porco vs Hive vs Mapa Nativo Reduce

Eu tenho uma compreensão básica sobre o que são abstrações de Pig, Hive. Mas não tenho uma ideia clara sobre os cenários que exigem que o Hive, Pig ou o mapa...

4 a resposta

como limitar o número de mapeadores

4 a resposta

Como funciona o algoritmo de classificação MapReduce?

Um dos principais exemplos usados ​​para demonstrar o poder do MapReduce é aBenchmark da Terasort. Estou tendo problemas para entender os fundamentos do algo...

1 a resposta

Permutações com o MapReduce

Existe uma maneira de gerar permutações com o MapReduc Arquivo de entrada 1 title1 2 title2 3 title3meu gol 1,2 title1,title2 1,3 title1,title3 2,3 title2,title3

3 a resposta

Consulta de objetos incorporados no Mongoid / trilhos 3 (“Lower than”, operadores Min e classificação)

Estou usando os trilhos 3 com mongóide. Eu tenho uma coleção de ações com uma coleção incorporada de preços: class Stock include Mongoid::Document field :name, :type => String field :code, :type => Integer embeds_many :prices class Price include ...

1 a resposta

Hadoop - Ajuda necessária para entender as etapas de processamento

Eu tenho um arquivo compactado e contém 8 arquivos xml de tamanho 5-10kb. Peguei esses dados para fins de teste. Eu escrevi um programa apenas de mapa para descompactar o arquivo compactado. Euwrote program in MR2 and using Hadoop 2.7.1 in psuedo ...

3 a resposta

como adicionar jar externo ao trabalho hadoop?

Eu tenho um trabalho do Hadoop no qual o mapeador deve usar um jar externo. Tentei passar esse jar para a JVM do mapeador via argumento -libjars no comando hadoop hadoop jar mrrunner.jar DAGMRRunner -libjars ...

2 a resposta

Utilização completa de todos os núcleos no modo pseudo-distribuído do Hadoop

Estou executando uma tarefa no modo pseudo-distribuído no meu laptop de 4 núcleos. Como posso garantir que todos os núcleos sejam efetivamente usados. Atualmente, meu rastreador de tarefas mostra que apenas uma tarefa está sendo executada por ...