Resultados da pesquisa a pedido "hadoop"
hadoop convertendo \ r \ n para \ n e quebrando o formato ARC
Estou tentando analisar dados do commoncrawl.org usando o hadoop streaming. Eu configurei um hadoop local para testar meu código e tenho um mapeador Ruby simples que usa um leitor ARCfile de streaming. Quando invoco meu código como cat ...
ransferências lentas no Jetty com codificação de transferência em pedaços em determinado tamanho de buff
Estou investigando um problema de desempenho com o Jetty 6.1.26. O Jetty parece usarTransfer-Encoding: chunked, e dependendo do tamanho do buffer usado, isso pode ser muito lento ao transferir localment Criei um pequeno aplicativo de teste ...
Hadoop performance
Instalei o hadoop 1.0.0 e experimentei o exemplo de contagem de palavras (cluster de nó único). Demorou 2m 48s para concluir. Então tentei o programa padrão de contagem de palavras linux, que é executado em 10 milissegundos no mesmo conjunto ...
Hadoop Job: Falha na tarefa de relatar o status por 601 segundos
Enquanto executa o trabalho hadoop no pseudonode, a tarefa falha e é morta. Erro: a tentativa de tarefa_ falha ao relatar o status por 601 segundos Mas o mesmo programa está sendo executado no Eclipse (trabalho local Task: existem cerca de ...
JAVA_HOME não está definindo
Enquanto trabalha em Hadoop Implementação em operação pseudo-distribuída, encontrei a seguinte exceção de JAVA_HOME variável não configurada, mas quando tentei repeti-la, ela foi configurad A variável está predefinida emconf/hadoop-env.sh ...
Como usar o Sqoop no programa Java?
Eu sei como usar o sqoop através da linha de comando. Mas não sei como chamar o comando sqoop usando programas java. Alguém pode dar uma visão do código?
Escrevendo o código MApreduce para contar o número de registros
Quero escrever um código de mapreduce para contar o número de registros em determinado arquivo CSV. Não estou entendendo o que fazer no mapa e o que fazer para reduzir como devo resolver isso alguém pode sugerir algo?
Como especificar configurações mapred e opções de java com jar personalizado na CLI usando o EMR da Amazo
Gostaria de saber como especificar configurações de mapreduce como mapred.task.timeout, mapred.min.split.size etc., ao executar um trabalho de streaming usando jar personalizad Podemos usar a seguinte maneira de especificar essas ...
$ HADOOP_HOME está obsoleto
Iniciei um cluster hadoop. Recebo esta mensagem de aviso:$HADOOP_HOME is deprecated Já adicionoexport HADOOP_HOME_WARN_SUPPRESS="TRUE" para dentrohadoop-env.sh Quando iniciei o cluster, não vejo mais nenhuma mensagem de avis No entanto, quando ...
como acessar e manipular os dados do arquivo pdf no Hadoop?
Eu quero ler o arquivo PDF usando o hadoop, como é possível? Eu sei apenas que o hadoop pode processar apenas arquivos txt, então existe uma maneira de analisar os arquivos PDF em tx Dê-me uma sugestão.