Сравнение столбцов в Писпарке

Я работаю над PySpark DataFrame с n столбцами. У меня есть набор из m столбцов (m <n), и моя задача состоит в том, чтобы выбрать столбец с максимальными значениями в нем.

Например:

Входные данные: PySpark DataFrame, содержащий col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5].

Ouput = col_4 = max (col1, col_2, col_3) = [3,2,5] в этом примере.

В пандах есть нечто подобное, как объяснено вэтот вопрос.

Есть ли способ сделать это в PySpark, или я должен изменить конвертирование PySpark df в Pandas df и затем выполнить операции?

Ответы на вопрос(4)

Ваш ответ на вопрос