Resultados da pesquisa a pedido "mapreduce"
Como reduzir em uma lista de tuplas em python
Eu tenho uma matriz e quero contar a ocorrência de cada item na matriz. Consegui usar uma função de mapa para produzir uma lista de tuplas. def mapper(a): return (a, 1) r = list(map(lambda a: mapper(a), arr)); //output example: //(11817685, 1), ...
Por que um trabalho somente de mapa na seção resulta em um único arquivo de saída
Quando executo a consulta a seguir, recebo apenas um arquivo como saída, embora tenha 8 mapeadores e 0 redutores. create table table_2 as select * from table_1.8 mapeadores são chamados e não há fase redutora. Existe apenas um arquivo no local ...
Como as consultas sql do hive são enviadas como trabalho de sr do hive cli
Implantei um cluster CDH-5.9 com o MR como mecanismo de execução de seção. Eu tenho uma tabela de seção chamada "usuários" com 50 linhas. Sempre que executo a consultaselect * from users funciona bem da seguinte maneira: hive> select * from ...
MapReduce classificar por valor em ordem decrescente
Estou tentando escrever em pseudo-código uma tarefa MapReduce que retorna os itens classificados em ordem decrescente. Por exemplo: para a tarefa de contagem de palavras, em vez de obter: apple 1 banana 3 mango 2Eu quero que a saída ...
O que a fase de embaralhamento realmente faz?
O que a fase de embaralhamento realmente faz? A) Como o embaralhamento é o processo de trazer o mapeador o / p para o redutor o / p, ele apenas traz as chaves específicas dos mapeadores para os redutores específicos com base no código escrito no ...
quantos mapeadores e redutores serão criados para uma tabela particionada no hive
Estou sempre confuso sobre quantos mapeadores e reduções serão criados para uma tarefa específica no hive. por exemplo, se o tamanho do bloco = 128mb e houver 365 arquivos cada mapeados para uma data em um ano (tamanho do arquivo = 1 mb cada). Há ...
PySpark Como ler CSV no Dataframe e manipulá-lo
Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...
Como definir um redutor para emitir <Text, IntWritable> e um mapeador para receber <Text, IntWritable>?
Estou desenvolvendo algum código emhadoopcommapreduzirque usadois mapeadores e dois redutores.Foi-me dito para usarSequenceFileInputFormate SequenceFileOutputFormatpara que a saída do primeiro redutor e a entrada do segundo mapeador funcionem ...
Junte-se a duas coleções com o MapReduce no MongoDB
Eu já sei que o MongoDB não suporta operações de junção, mas tenho que simular um$lookup (a partir da estrutura de agregação) com omapReduce paradigma. Minhas duas coleções são: // Employees sample { "_id" : "1234", "first_name" : "John", ...
Como posso obter um resultado de mapa / redução que é classificado em ordem decrescente do valor "valor"? Se também o uso da função de lista conseguir isso?
Tenho visualizar o mapa e reduzir assim: Mapa: function(doc) { if(doc.type){ var usersLength = doc.users.length; for (var i = 0; i < usersLength ; i++) { emit([doc.users[i].userid,doc.Service.ownId], 1); } } }Reduzir: function(keys, values, ...