Resultados da pesquisa a pedido "mapreduce"
Qual é a maneira mais eficiente de fazer uma redução classificada no PySpark?
Estou analisando os registros de desempenho pontual dos voos domésticos nos EUA a partir de 2015. Preciso agrupar por número da cauda e armazenar uma lista ordenada por data de todos os voos para cada número da cauda em um banco de dados, a serem ...
Como os contêineres são criados com base em vcores e memória no MapReduce2?
Eu tenho um pequeno cluster composto de 1 mestre (namenode, secundárionamenode, resourcemanager) e 2 escravos (datanode, nodemanager). Eu configurei no yarn-site.xml do master: yarn.scheduler.minimum-allocation-mb : ...
Erro ao executar o Mapreduce (fios) no eclipse do windows
Estou executando um programa WordCount no meu eclipse. Eu tentei com o Hadoop1.x ele está funcionando bem. Problema enfrentado durante a execução no hadoop2.x Eu tentei 1) adicionou todos os xml no meu caminho de classe. 2) também ...
Como definir avro schema para o complexo json document?
Eu tenho um documento JSON que gostaria de converter para o Avro e preciso que um esquema seja especificado para esse fim. Aqui está o documento JSON para o qual eu gostaria de definir o esquema avro: { "uid": 29153333, "somefield": "somevalue", ...
Classe não encontrada no trabalho do Hadoop
Eu tenho um trabalho de redução de mapa que obtém sua entrada do DocumentDB. Eu adicionei aos arquivos jar no diretório lib no meu código-fonte e também utilizei o -libjars ao executar o trabalho. mas ainda recebo o erro de classe não encontrada ...
MultipleOutputFormat no hadoop
Sou novato no Hadoop. Estou testando o programa Wordcount. Agora, para experimentar vários arquivos de saída, eu usoMultipleOutputFormat. esse link me ajudou a ...
Lendo arquivo como registro único no hadoop
Eu tenho enorme não. de arquivos pequenos, eu quero usar CombineFileInputFormat para mesclar os arquivos de modo que cada arquivo de dados venha como um únic...
Práticas padrão para efetuar logon em tarefas do MapReduce
Estou tentando encontrar a melhor abordagem para fazer logon nos trabalhos do MapReduce. Estou usando o slf4j com o log4j appender como em meus outros aplicativos Java, mas como o trabalho do MapReduce é executado de maneira distribuída pelo ...
como implementar o cálculo de valor próprio com o MapReduce / Hadoop?
É possível porque o PageRank era uma forma de autovalor e foi por isso que o MapReduce foi introduzido. Mas parece haver problemas na implementação real, como todo computador escravo precisa manter uma cópia da matriz?