Resultados da pesquisa a pedido "hadoop"
Qual é o número ideal de redutores no Hadoop?
Conforme fornecido pelo wiki do Hadoop, para calcular o número ideal de redutores é 0,95 ou 1,75 * (nós * mapred.tasktracker.tasks.maximum) masquando escolher 0,95 e quando 1,75? qual é o fator que considerou ao decidir esse multiplicador?
O que é executado primeiro: o particionador ou o combinador?
Eu queria saber entre particionador e combinador, que roda primeiro? Na minha opinião, primeiro é o partitador, depois o combinador e, em seguida, as chaves são redirecionadas para diferentes redutores, que aparecem como o particionador, e por ...
carregando corretamente datetime no porco
Estou carregando um arquivo tsv com uma coluna datetime e uma coluna longa com: A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:datetime, userid:long); DUMP A;Um exemplo de linha de entrada: Tue Feb 11 05:02:10 +0000 2014 ...
Obtenha algumas linhas de dados HDFS
Estou tendo um2 GB dados na minhaHDFS. É possível obter esses dados aleatoriamente. Como fazemos na linha de comando do Unix cat iris2.csv |head -n 50
O coletor Flume HDFS continua rolando arquivos pequenos
Estou tentando transmitir dados do twitter em hdfs usando o flume e isso: https://github.com/cloudera/cdh-twitter-example/ [https://github.com/cloudera/cdh-twitter-example/] O que quer que eu tente aqui, ele continua criando arquivos em HDFS com ...
hadoop mapreduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy () Z
Estou tentando escrever um arquivo de sequência compactada de blocos de snappy a partir de um trabalho de redução de mapa. Estou usando o hadoop 2.0.0-cdh4.5.0 e o snappy-java 1.0.4.1 Aqui está o meu código: package jinvestor.jhouse.mr; import ...
Não é possível executar o trabalho do Hadoop remotamente
Quero executar um trabalho hadoop remotamente a partir de uma máquina Windows. O cluster está sendo executado no Ubuntu. Basicamente, quero fazer duas coisas: Execute o trabalho hadoop remotamente.Recupere o resultado do diretório de saída do ...
Como adicionar partição usando o hive em uma data específica?
Estou usando o hive (com tabelas externas) para processar dados armazenados no amazon S3. Meus dados são particionados da seguinte maneira: DIR s3://test.com/2014-03-01/ DIR s3://test.com/2014-03-02/ DIR s3://test.com/2014-03-03/ DIR ...
Ferramentas de visualização de dados disponíveis no hive hadoop
Por favor, sugira algumas ferramentas de visualização que podem funcionar no Hive-Hadoop. A única coisa é, ele deve aceitarColmeia .
Por que um bloco no HDFS é tão grande?
Alguém pode explicar esse cálculo e dar uma explicação lúcida? Um cálculo rápido mostra que, se o tempo de busca for em torno de 10 ms e a taxa de transferência for de 100 MB / s, para tornar o tempo de busca em 1% do tempo de transferência, ...