Resultados da pesquisa a pedido "hadoop"

5 a resposta

Hadoop, como comprimir a saída do mapeador, mas não a saída do redutor

Eu tenho um programa java de redução de mapa no qual tento compactar apenas a saída do mapeador, mas não a saída do redutor. Eu pensei que isso seria possível, definindo as seguintes propriedades na instância de configuração, conforme listado ...

3 a resposta

Lendo programaticamente a saída do Programa Hadoop Mapreduce

Essa pode ser uma pergunta básica, mas não consegui encontrar uma resposta para ela no Google. Tenho um trabalho de redução de mapa que cria vários arquivos de saída em seu diretório de saída. Meu aplicativo Java executa esse trabalho em um ...

3 a resposta

Como obter o nome do arquivo / conteúdo do arquivo como entrada de chave / valor para o MAP ao executar uma tarefa Hadoop MapReduce?

Estou criando um programa para analisar arquivos PDF, DOC e DOCX. Esses arquivos são armazenados no HDFS. Quando inicio meu trabalho no MapReduce, desejo que a função map tenha o nome do arquivo como chave e o conteúdo binário como valor. ...

12 a resposta

Java suficiente para o Hadoop [fechado]

Sou desenvolvedor de C ++ há cerca de 10 anos. Eu preciso pegar o Java apenas para o Hadoop. Duvido que farei outra coisa em Java. Então, eu gostaria de uma lista de coisas que eu precisaria pegar. Claro, eu precisaria aprender a linguagem ...

2 a resposta

Como você lida com arquivos de entrada vazios ou ausentes no Apache Pi

Nosso fluxo de trabalho usa um cluster elástico de redução de mapa da AWS para executar uma série de tarefas do Pig para manipular uma grande quantidade de dados em relatórios agregados. Infelizmente, os dados de entrada são potencialmente ...

1 a resposta

xecutando a consulta do Pig sobre os dados armazenados no Hive

Gostaria de saber como executar consultas Pig armazenadas no formato Hive. Eu configurei o Hive para armazenar dados compactados (usando este ...

2 a resposta

Por que o sistema de arquivos Hadoop não suporta E / S aleatória?

Os sistemas de arquivos distribuídos que, como o Google File System e o Hadoop, não suportam E / S aleatória. (Ele não pode modificar o arquivo que foi gravado antes. Somente a gravação e o acréscimo são possíveis.) Por que eles criaram um ...

4 a resposta

Interpretando a saída do mahout clusterdumper

Fiz um teste de agrupamento em páginas rastreadas (mais de 25.000 documentos; conjunto de dados pessoais). Eu fiz um clusterdump: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txtA saída após ...

5 a resposta

Como corrigir "A tentativa de tarefa_201104251139_0295_r_000006_0 falhou ao relatar o status por 600 segundos."

Eu escrevi um trabalho de mapreduce para extrair algumas informações de um conjunto de dados. O conjunto de dados é a classificação dos usuários sobre filmes. O número de usuários é de cerca de 250 mil e o número de filmes é de cerca de 300 mil. ...

3 a resposta

Muitas falhas de busca: Hadoop no cluster (x2)

Estive usando o Hadoop há mais ou menos uma semana (tentando entender o problema) e, embora tenha conseguido configurar um cluster multinode (2 máquinas: 1 laptop e uma pequena área de trabalho) e recuperar resultados, eu sempre parecem encontrar ...