Resultados da pesquisa a pedido "hadoop"

1 a resposta

Como extrair dados nas funções Map / Reduc

De acordo comHadoop: O Guia Definitivo [http://shop.oreilly.com/product/0636920010388.do]. A nova API suporta os estilos de iteração "push" e "pull". Nas duas APIs, os pares de registros de valor-chave são enviados ao mapeador, mas, além disso, ...

5 a resposta

Como posso inspecionar um Hadoop SequenceFile para o qual não tenho informações completas sobre o esquema?

Tenho um Hadoop SequenceFile compactado de um cliente que gostaria de inspecionar. No momento, não tenho informações completas sobre o esquema (nas quais estou trabalhando separadamente). as, nesse meio tempo (e na esperança de uma solução ...

3 a resposta

Como carregar dados da seção do HDFS sem remover o arquivo de orige

Quando carregar dados do HDFS para o Hive, usando LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename; command, parece que ele está movendo o hdfs_file parahive/warehouse dir. É possível (como?) Copiá-lo em vez de movê-lo, para que o arquivo seja ...

2 a resposta

Exemplo de hadoop-streaming falhou ao executar - Digite incompatibilidade na chave do mapa

I was running $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -D stream.map.output.field.separator=. \ -D stream.num.map.output.key.fields=4 \ -input myInputDirs \ -output myOutputDir \ ...

2 a resposta

MapReduceBase e Mapper foram preteridos

public static class Map extends MapReduceBase implements MapperMapReduceBase, Mapper eJobConf estão obsoletos emHadoop 0.20.203. O que devemos usar agora? Editar 1 - para oMapper e aMapReduceBase, Descobri que só precisamos ...

4 a resposta

ator de replicação HDFS

Quando estou carregando um arquivo no HDFS, se eu definir o fator de replicação como 1, os splits de arquivos residirão em uma única máquina ou os splits serão distribuídos para várias máquinas na rede? hadoop fs -D dfs.replication=1 ...

7 a resposta

como escrever uma subconsulta e usar a cláusula “In” no Hive

Como posso usar a cláusula In do Hive? Quero escrever algo como este no Hive, selecione x de y onde y.z (selecione z distinto de y) ordene por x; Mas não estou encontrando nenhuma maneira de fazê-lo. Tentei Na cláusula Hive 0.7, estava lançando ...

2 a resposta

Entrada e saída de dados do Elastic MapReduce HDFS

Escrevi um programa Hadoop que requer um determinado layout no HDFS e, posteriormente, preciso retirar os arquivos do HDFS. Ele funciona na minha configuração Hadoop de nó único e estou ansioso para fazê-lo funcionar em dezenas de nós no Elastic ...

2 a resposta

Como fazer o Hadoop usar todos os núcleos do meu sistema?

Eu tenho um sistema de 32 núcleos. Quando executo um trabalho do MapReduce usando o Hadoop, nunca vejo o processo java usar mais de 150% da CPU (de acordo com a parte superior) e geralmente fica em torno da marca de 100%. Deve estar mais perto ...

8 a resposta

Como sobrescrever / reutilizar o caminho de saída existente para tarefas do Hadoop novamente e novamente

Quero sobrescrever / reutilizar o diretório de saída existente quando executo meu trabalho do Hadoop diariamente. Na verdade, o diretório de saída armazenará a saída resumida dos resultados da execução de tarefas de cada dia. Se eu especificar o ...