Resultados da pesquisa a pedido "hadoop"
Hadoop, como comprimir a saída do mapeador, mas não a saída do redutor
Eu tenho um programa java de redução de mapa no qual tento compactar apenas a saída do mapeador, mas não a saída do redutor. Eu pensei que isso seria possível, definindo as seguintes propriedades na instância de configuração, conforme listado ...
Lendo programaticamente a saída do Programa Hadoop Mapreduce
Essa pode ser uma pergunta básica, mas não consegui encontrar uma resposta para ela no Google. Tenho um trabalho de redução de mapa que cria vários arquivos de saída em seu diretório de saída. Meu aplicativo Java executa esse trabalho em um ...
Como obter o nome do arquivo / conteúdo do arquivo como entrada de chave / valor para o MAP ao executar uma tarefa Hadoop MapReduce?
Estou criando um programa para analisar arquivos PDF, DOC e DOCX. Esses arquivos são armazenados no HDFS. Quando inicio meu trabalho no MapReduce, desejo que a função map tenha o nome do arquivo como chave e o conteúdo binário como valor. ...
Java suficiente para o Hadoop [fechado]
Sou desenvolvedor de C ++ há cerca de 10 anos. Eu preciso pegar o Java apenas para o Hadoop. Duvido que farei outra coisa em Java. Então, eu gostaria de uma lista de coisas que eu precisaria pegar. Claro, eu precisaria aprender a linguagem ...
Como você lida com arquivos de entrada vazios ou ausentes no Apache Pi
Nosso fluxo de trabalho usa um cluster elástico de redução de mapa da AWS para executar uma série de tarefas do Pig para manipular uma grande quantidade de dados em relatórios agregados. Infelizmente, os dados de entrada são potencialmente ...
xecutando a consulta do Pig sobre os dados armazenados no Hive
Gostaria de saber como executar consultas Pig armazenadas no formato Hive. Eu configurei o Hive para armazenar dados compactados (usando este ...
Por que o sistema de arquivos Hadoop não suporta E / S aleatória?
Os sistemas de arquivos distribuídos que, como o Google File System e o Hadoop, não suportam E / S aleatória. (Ele não pode modificar o arquivo que foi gravado antes. Somente a gravação e o acréscimo são possíveis.) Por que eles criaram um ...
Interpretando a saída do mahout clusterdumper
Fiz um teste de agrupamento em páginas rastreadas (mais de 25.000 documentos; conjunto de dados pessoais). Eu fiz um clusterdump: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txtA saída após ...
Como corrigir "A tentativa de tarefa_201104251139_0295_r_000006_0 falhou ao relatar o status por 600 segundos."
Eu escrevi um trabalho de mapreduce para extrair algumas informações de um conjunto de dados. O conjunto de dados é a classificação dos usuários sobre filmes. O número de usuários é de cerca de 250 mil e o número de filmes é de cerca de 300 mil. ...
Muitas falhas de busca: Hadoop no cluster (x2)
Estive usando o Hadoop há mais ou menos uma semana (tentando entender o problema) e, embora tenha conseguido configurar um cluster multinode (2 máquinas: 1 laptop e uma pequena área de trabalho) e recuperar resultados, eu sempre parecem encontrar ...