Comparar columnas en Pyspark

Question

Jun 07, 2016, 09:45 AM

Estoy trabajando en un PySpark DataFrame con n columnas. Tengo un conjunto de m columnas (m <n) y mi tarea es elegir la columna con valores máximos.

Por ejemplo:

Entrada: PySpark DataFrame que contiene col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5].

Ouput = col_4 = max (col1, col_2, col_3) = [3,2,5] en este ejemplo.

Hay algo similar en los pandas como se explica enesta pregunta.

¿Hay alguna forma de hacer esto en PySpark o debería cambiar convertir mi PySpark df a Pandas df y luego realizar las operaciones?

Respuestas a la pregunta(4)

Seleccionando y operando columnas en un .csv

sed me da ": error inesperado de EOF (pendiente) y no tengo idea de por qué

Cómo configurar minOccurs a 1

Eliminar elemento de objeto JSON

¿Cómo se inyecta un controlador en otro controlador en AngularJS?