Obtenha o valor máximo para cada chave em um Spark RDD

Question

May 04, 2016, 02:17 AM

Obtenha o valor máximo para cada chave em um Spark RDD

Qual é a melhor maneira de retornar a linha máxima (valor) associada a cada chave exclusiva em um RDD spark?

Estou usando python e tentei o Math max, mapeando e reduzindo por chaves e agregados. Existe uma maneira eficiente de fazer isso? Possivelmente uma UDF?

Eu tenho no formato RDD:

[(v, 3),
 (v, 1),
 (v, 1),
 (w, 7),
 (w, 1),
 (x, 3),
 (y, 1),
 (y, 1),
 (y, 2),
 (y, 3)]

E eu preciso retornar:

[(v, 3),
 (w, 7),
 (x, 3),
 (y, 3)]

Os laços podem retornar o primeiro valor ou aleatoriamente.

questionAnswers(1)

Perguntas populares

0 a resposta

Regex para atributos XML aninhados

0 a resposta

Transformar dinamicamente em css usando o estilo ng

0 a resposta

O que as páginas da Web: configuração de versão fazem?

0 a resposta

Como posso obter a saída do log do ruby logger para stdout e também para o arquiv

0 a resposta

s arquivos @Static não serão carregados quando estiver fora de depuração no Django

Você é muito ativo! É ótimo!

Obtenha o valor máximo para cada chave em um Spark RDD

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares