Comparando colunas no Pyspark

Question

Jun 07, 2016, 09:45 AM

Comparando colunas no Pyspark

Estou trabalhando em um PySpark DataFrame com n colunas. Eu tenho um conjunto de m colunas (m <n) e minha tarefa é escolher a coluna com valores máximos.

Por exemplo:

Entrada: PySpark DataFrame contendo col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5].

Ouput = col_4 = max (col1, col_2, col_3) = [3,2,5] neste exemplo.

Há algo semelhante nos pandas, como explicado emesta Pergunta, questão.

Existe alguma maneira de fazer isso no PySpark ou devo alterar o conversor do meu PySpark df para Pandas df e executar as operações?

questionAnswers(4)

Perguntas populares

0 a resposta

PHP array_filter com argumentos

0 a resposta

Como definir o ícone em uma coluna da JTabl

0 a resposta

DHH no teste de unidade: o RSpec é realmente desnecessári

0 a resposta

Jquery arrastar / soltar e clonar

0 a resposta

Sincronização automática entre Github e Kiln

Você é muito ativo! É ótimo!

Comparando colunas no Pyspark

questionAnswers(4)

yourAnswerToTheQuestion

Perguntas populares