Resultados da pesquisa a pedido "mapreduce"

2 a resposta

Como especificar o particionador para streaming de hadoop

Eu tenho um particionador personalizado como abaixo:

2 a resposta

Configurando o parâmetro na configuração do Job MapReduce

Existe alguma maneira de definir um parâmetro na configuração de trabalho de

1 a resposta

Junte-se a duas coleções com o MapReduce no MongoDB

Eu já sei que o MongoDB não suporta operações de junção, mas tenho que simular um$lookup (a partir da estrutura de agregação) com omapReduce paradigma. Minhas duas coleções são: // Employees sample { "_id" : "1234", "first_name" : "John", ...

2 a resposta

Os resultados do MapReduce parecem limitados a 100?

Eu estou brincando com o Map Reduce no MongoDB e python e tenho uma estranha limitação. Eu estou apenas tentando contar o número de registros de "livros...

1 a resposta

Como emitir no método de fechamento do redutor

o

2 a resposta

Consulta em uma função de redução de mapa do MongoDB

Eu transmitai e salvei cerca de 250 mil tweets no MongoDB e aqui, eu estou recuperando, como você pode ver, baseado em uma palavra, ou palavra-chave, present...

1 a resposta

PySpark Como ler CSV no Dataframe e manipulá-lo

Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...

1 a resposta

Como faço para definir um objeto como a saída de valor para mapa no Hadoop MapReduce?

No Hadoop MapReduce, para a saída intermediária (gerada pelo map ()), eu quero que o valor da saída Intermediária seja o objeto a seguir.

2 a resposta

PIG UDF lidar com tupla multi-alinhada dividida em mapeador diferente

2 a resposta

Por que precisamos do Hadoop ssh sem senha?

AFAIK, ssh sem senha é necessário para que o nó mestre possa iniciar os processos daemon em cada nó escravo. Além disso, existe algum uso de ssh sem senha pa...