Vergleichen von Spalten in Pyspark

Question

Jun 07, 2016, 09:45 AM

Vergleichen von Spalten in Pyspark

Ich arbeite an einem PySpark DataFrame mit n Spalten. Ich habe eine Menge von m Spalten (m <n) und meine Aufgabe ist es, die Spalte mit den Maximalwerten auszuwählen.

Beispielsweise

Input: PySpark DataFrame mit col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5].

Ouput = col_4 = max (col1, col_2, col_3) = [3,2,5] in diesem Beispiel.

Es gibt etwas Ähnliches bei Pandas, wie in @ erklärDie frage.

Gibt es eine Möglichkeit, dies in PySpark zu tun, oder sollte ich die Konvertierung meines PySpark df in Pandas df ändern und dann die Operationen ausführen?

Antworten auf die Frage(8)

Top Fragen

0 die antwort

Testen der Fortschrittsanzeige auf Android mit Espresso

0 die antwort

Bei der Verwendung von Ember-cli-blanket für Abdeckungsdaten werden Dateien aus Ember selbst anstelle von nur von mir erstellten Dateien eingeschlossen.

0 die antwort

Wie lese ich CSV-Daten in NumPy in ein Datensatz-Array?

0 die antwort

Arbeitszeit im Vollkalender [Lösung]

0 die antwort

java.lang.NoClassDefFoundError: org / apache / ws / commons / schema / resolver / URIResolver

Du bist sehr aktiv! Es ist großartig!

Vergleichen von Spalten in Pyspark

Antworten auf die Frage(8)

Ihre Antwort auf die Frage

Top Fragen