Spark sql wie man explodiert ohne Nullwerte zu verlieren

Question

Sep 28, 2016, 07:57 AM

Spark sql wie man explodiert ohne Nullwerte zu verlieren

Ich habe einen Datenrahmen, den ich zu reduzieren versuche. Als Teil des Prozesses möchte ich es auflösen. Wenn ich also eine Spalte mit Arrays habe, wird jeder Wert des Arrays verwendet, um eine separate Zeile zu erstellen. Zum Beispiel

id | name | likes
_______________________________
1  | Luke | [baseball, soccer]

soll werde

id | name | likes
_______________________________
1  | Luke | baseball
1  | Luke | soccer

Das ist mein Code

private DataFrame explodeDataFrame(DataFrame df) {
    DataFrame resultDf = df;
    for (StructField field : df.schema().fields()) {
        if (field.dataType() instanceof ArrayType) {
            resultDf = resultDf.withColumn(field.name(), org.apache.spark.sql.functions.explode(resultDf.col(field.name())));
            resultDf.show();
        }
    }
    return resultDf;
}

Das Problem ist, dass in meinen Daten einige der Array-Spalten Nullen haben. In diesem Fall wird die gesamte Zeile gelöscht. Also dieser Datenrahmen:

id | name | likes
_______________________________
1  | Luke | [baseball, soccer]
2  | Lucy | null

wir

id | name | likes
_______________________________
1  | Luke | baseball
1  | Luke | soccer

Anstatt vo

id | name | likes
_______________________________
1  | Luke | baseball
1  | Luke | soccer
2  | Lucy | null

Wie kann ich meine Arrays auflösen, damit ich die Nullzeilen nicht verliere?

Ich verwende Spark 1.5.2 und Java 8

Antworten auf die Frage(6)

Top Fragen

0 die antwort

Cluster kann nicht initialisiert werden. Bitte überprüfen Sie Ihre Konfiguration auf mapreduce.framework.name und die entsprechenden Serveradressen, die job2remoteClustr übermitteln

0 die antwort

SKSpriteNode-Pools in iOS 8 scheinen einem überlappenden Speicher zugeordnet zu sein

0 die antwort

Java Encapsulation Concept nicht klar

0 die antwort

Wie kann ich eine dynamische Versandtabelle in C implementieren?

0 die antwort

Laden Sie mehrere Bilder mit Glide