Vergleichen von Spalten in Pyspark

Ich arbeite an einem PySpark DataFrame mit n Spalten. Ich habe eine Menge von m Spalten (m <n) und meine Aufgabe ist es, die Spalte mit den Maximalwerten auszuwählen.

Beispielsweise

Input: PySpark DataFrame mit col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5].

Ouput = col_4 = max (col1, col_2, col_3) = [3,2,5] in diesem Beispiel.

Es gibt etwas Ähnliches bei Pandas, wie in @ erklärDie frage.

Gibt es eine Möglichkeit, dies in PySpark zu tun, oder sollte ich die Konvertierung meines PySpark df in Pandas df ändern und dann die Operationen ausführen?

Antworten auf die Frage(8)

Ihre Antwort auf die Frage