Resultados da pesquisa a pedido "hadoop"

1 a resposta

Qual é o número ideal de redutores no Hadoop?

Conforme fornecido pelo wiki do Hadoop, para calcular o número ideal de redutores é 0,95 ou 1,75 * (nós * mapred.tasktracker.tasks.maximum) masquando escolher 0,95 e quando 1,75? qual é o fator que considerou ao decidir esse multiplicador?

7 a resposta

O que é executado primeiro: o particionador ou o combinador?

Eu queria saber entre particionador e combinador, que roda primeiro? Na minha opinião, primeiro é o partitador, depois o combinador e, em seguida, as chaves são redirecionadas para diferentes redutores, que aparecem como o particionador, e por ...

1 a resposta

carregando corretamente datetime no porco

Estou carregando um arquivo tsv com uma coluna datetime e uma coluna longa com: A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:datetime, userid:long); DUMP A;Um exemplo de linha de entrada: Tue Feb 11 05:02:10 +0000 2014 ...

7 a resposta

Obtenha algumas linhas de dados HDFS

Estou tendo um2 GB dados na minhaHDFS. É possível obter esses dados aleatoriamente. Como fazemos na linha de comando do Unix cat iris2.csv |head -n 50

2 a resposta

O coletor Flume HDFS continua rolando arquivos pequenos

Estou tentando transmitir dados do twitter em hdfs usando o flume e isso: https://github.com/cloudera/cdh-twitter-example/ [https://github.com/cloudera/cdh-twitter-example/] O que quer que eu tente aqui, ele continua criando arquivos em HDFS com ...

6 a resposta

hadoop mapreduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy () Z

Estou tentando escrever um arquivo de sequência compactada de blocos de snappy a partir de um trabalho de redução de mapa. Estou usando o hadoop 2.0.0-cdh4.5.0 e o snappy-java 1.0.4.1 Aqui está o meu código: package jinvestor.jhouse.mr; import ...

1 a resposta

Não é possível executar o trabalho do Hadoop remotamente

Quero executar um trabalho hadoop remotamente a partir de uma máquina Windows. O cluster está sendo executado no Ubuntu. Basicamente, quero fazer duas coisas: Execute o trabalho hadoop remotamente.Recupere o resultado do diretório de saída do ...

5 a resposta

Como adicionar partição usando o hive em uma data específica?

Estou usando o hive (com tabelas externas) para processar dados armazenados no amazon S3. Meus dados são particionados da seguinte maneira: DIR s3://test.com/2014-03-01/ DIR s3://test.com/2014-03-02/ DIR s3://test.com/2014-03-03/ DIR ...

3 a resposta

Ferramentas de visualização de dados disponíveis no hive hadoop

Por favor, sugira algumas ferramentas de visualização que podem funcionar no Hive-Hadoop. A única coisa é, ele deve aceitarColmeia .

3 a resposta

Por que um bloco no HDFS é tão grande?

Alguém pode explicar esse cálculo e dar uma explicação lúcida? Um cálculo rápido mostra que, se o tempo de busca for em torno de 10 ms e a taxa de transferência for de 100 MB / s, para tornar o tempo de busca em 1% do tempo de transferência, ...