Comparar columnas en Pyspark
Estoy trabajando en un PySpark DataFrame con n columnas. Tengo un conjunto de m columnas (m <n) y mi tarea es elegir la columna con valores máximos.
Por ejemplo:
Entrada: PySpark DataFrame que contiene col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5].
Ouput = col_4 = max (col1, col_2, col_3) = [3,2,5] en este ejemplo.
Hay algo similar en los pandas como se explica enesta pregunta.
¿Hay alguna forma de hacer esto en PySpark o debería cambiar convertir mi PySpark df a Pandas df y luego realizar las operaciones?