Resultados da pesquisa a pedido "hadoop"
Lançar um trabalho de mapreduce do eclipse
Eu escrevi um programa mapreduce em Java, que eu posso enviar para um cluster remoto rodando em modo distribuído. Atualmente, envio o trabalho usando as segu...
xecutando a consulta do Pig sobre os dados armazenados no Hive
Gostaria de saber como executar consultas Pig armazenadas no formato Hive. Eu configurei o Hive para armazenar dados compactados (usando este ...
ransferências lentas no Jetty com codificação de transferência em pedaços em determinado tamanho de buff
Estou investigando um problema de desempenho com o Jetty 6.1.26. O Jetty parece usarTransfer-Encoding: chunked, e dependendo do tamanho do buffer usado, isso pode ser muito lento ao transferir localment Criei um pequeno aplicativo de teste ...
Número padrão de redutores
No Hadoop, se não tivermos definido o número de redutores, quantos serão criados? O número de mapeadores depende de(tamanho total dos dados) / (tamanho da divisão de entrada), Por exemplo. se o tamanho dos dados for 1 TB e o tamanho da ...
PIG - Interface encontrada org.apache.hadoop.mapreduce.JobContext, mas a classe era esperada
Eu estava tentando carregar uma mesa da colméia. Estou usando o Hcatalog para isso. Entrei na seção usando pig -useHCatalogeu exporto quase todos os frascos da colméia e do hadoop register ...
Hive: SELECT AS e GROUP BY
Eu tenho uma consulta Hive como
Alterar o tamanho do bloco do arquivo dfs
Atualmente, meu mapa é ineficiente ao analisar um conjunto específico de arquivos (um total de 2 TB). Gostaria de alterar o tamanho do bloco de arquivos nos dfs do Hadoop (de 64 MB para 128 MB). Não consigo encontrar como fazê-lo na documentação ...
MapReduce classificar por valor em ordem decrescente
Estou tentando escrever em pseudo-código uma tarefa MapReduce que retorna os itens classificados em ordem decrescente. Por exemplo: para a tarefa de contagem de palavras, em vez de obter: apple 1 banana 3 mango 2Eu quero que a saída ...
Parquet vs ORC vs ORC com Snappy
Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...