Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat

Question

Apr 21, 2016, 05:04 AM

Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat

Diese Frage hat hier bereits eine Antwort:

Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark 2 Antworten

Ich habe einen Spark-Datenrahmen wie diesen:

+------+--------+--------------+--------------------+
|   dbn|    boro|total_students|                sBus|
+------+--------+--------------+--------------------+
|17K548|Brooklyn|           399|[B41, B43, B44-SB...|
|09X543|   Bronx|           378|[Bx13, Bx15, Bx17...|
|09X327|   Bronx|           543|[Bx1, Bx11, Bx13,...|
+------+--------+--------------+--------------------+

Wie kann ich es abgleichen, damit jede Zeile für jedes Element in sBus kopiert wird und sBus eine normale Zeichenfolgenspalte ist?

So würde das Ergebnis etwa so aussehen:

+------+--------+--------------+--------------------+
|   dbn|    boro|total_students|                sBus|
+------+--------+--------------+--------------------+
|17K548|Brooklyn|           399| B41                |
|17K548|Brooklyn|           399| B43                |
|17K548|Brooklyn|           399| B44-SB             |
+------+--------+--------------+--------------------+

und so weiter..