Resultados da pesquisa a pedido "mapreduce"

4 a resposta

Como reduzir em uma lista de tuplas em python

Eu tenho uma matriz e quero contar a ocorrência de cada item na matriz. Consegui usar uma função de mapa para produzir uma lista de tuplas. def mapper(a): return (a, 1) r = list(map(lambda a: mapper(a), arr)); //output example: //(11817685, 1), ...

1 a resposta

Por que um trabalho somente de mapa na seção resulta em um único arquivo de saída

Quando executo a consulta a seguir, recebo apenas um arquivo como saída, embora tenha 8 mapeadores e 0 redutores. create table table_2 as select * from table_1.8 mapeadores são chamados e não há fase redutora. Existe apenas um arquivo no local ...

1 a resposta

Como as consultas sql do hive são enviadas como trabalho de sr do hive cli

Implantei um cluster CDH-5.9 com o MR como mecanismo de execução de seção. Eu tenho uma tabela de seção chamada "usuários" com 50 linhas. Sempre que executo a consultaselect * from users funciona bem da seguinte maneira: hive> select * from ...

1 a resposta

MapReduce classificar por valor em ordem decrescente

Estou tentando escrever em pseudo-código uma tarefa MapReduce que retorna os itens classificados em ordem decrescente. Por exemplo: para a tarefa de contagem de palavras, em vez de obter: apple 1 banana 3 mango 2Eu quero que a saída ...

0 a resposta

O que a fase de embaralhamento realmente faz?

O que a fase de embaralhamento realmente faz? A) Como o embaralhamento é o processo de trazer o mapeador o / p para o redutor o / p, ele apenas traz as chaves específicas dos mapeadores para os redutores específicos com base no código escrito no ...

1 a resposta

quantos mapeadores e redutores serão criados para uma tabela particionada no hive

Estou sempre confuso sobre quantos mapeadores e reduções serão criados para uma tarefa específica no hive. por exemplo, se o tamanho do bloco = 128mb e houver 365 arquivos cada mapeados para uma data em um ano (tamanho do arquivo = 1 mb cada). Há ...

1 a resposta

PySpark Como ler CSV no Dataframe e manipulá-lo

Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...

1 a resposta

Como definir um redutor para emitir <Text, IntWritable> e um mapeador para receber <Text, IntWritable>?

Estou desenvolvendo algum código emhadoopcommapreduzirque usadois mapeadores e dois redutores.Foi-me dito para usarSequenceFileInputFormate SequenceFileOutputFormatpara que a saída do primeiro redutor e a entrada do segundo mapeador funcionem ...

1 a resposta

Junte-se a duas coleções com o MapReduce no MongoDB

Eu já sei que o MongoDB não suporta operações de junção, mas tenho que simular um$lookup (a partir da estrutura de agregação) com omapReduce paradigma. Minhas duas coleções são: // Employees sample { "_id" : "1234", "first_name" : "John", ...

1 a resposta

Como posso obter um resultado de mapa / redução que é classificado em ordem decrescente do valor "valor"? Se também o uso da função de lista conseguir isso?

Tenho visualizar o mapa e reduzir assim: Mapa: function(doc) { if(doc.type){ var usersLength = doc.users.length; for (var i = 0; i < usersLength ; i++) { emit([doc.users[i].userid,doc.Service.ownId], 1); } } }Reduzir: function(keys, values, ...