Suchergebnisse für Anfrage "apache-spark-sql"

4 die antwort

Spark Scala: Konvertieren von DataFrame [vector] in DataFrame [f1: Double,…, fn: Double)]

Ich habe gerade Standard Scaler verwendet, um meine Funktionen für eine ML-Anwendung zu normalisieren. Nachdem ich die skalierten Features ausgewählt habe, möchte ich diese zurück in einen Datenrahmen mit Doppelwerten konvertieren, obwohl die ...

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

4 die antwort

Explode in PySpark

Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...

TOP-Veröffentlichungen

2 die antwort

Config-Datei zum Definieren der JSON-Schemastruktur in PySpark

Ich habe eine PySpark-Anwendung erstellt, die die JSON-Datei in einem Datenrahmen über ein definiertes Schema liest. Codebeispiel unten schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ...

6 die antwort

Spark-Datenrahmen konvertieren verschachteltes JSON in separate Spalten

Ich habe einen Stream von JSONs mit folgender Struktur, die in dataframe konvertiert werden. { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }Die Show-Funktionen des Datenrahmens führen zu folgender ...

2 die antwort

Erstellen Sie einen Datenrahmen in Pyspark, der eine einzelne Spalte mit Tupeln enthält

Ich habe eine RDD, die Folgendes enthält: [('Spalte 1', Wert), ('Spalte 2', Wert), ('Spalte 3', Wert), ..., ('Spalte 100', Wert)] . Ich möchte einen Datenrahmen erstellen, der eine einzelne Spalte mit Tupeln enthält. Der nächste, den ich ...

2 die antwort

Darstellung der Vektorspalte in Spark SQL verstehen

Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

2 die antwort

Wie Scala wrappedArray durchlaufen? (Funke

Ich führe die folgenden Vorgänge aus: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...

4 die antwort

Spark SQL UDF mit komplexem Eingabeparameter

Ich versuche, UDF mit dem Eingabetyp Array von struct zu verwenden. Ich habe folgende Datenstruktur dies ist nur relevanter Teil einer größeren Struktur |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ...

2 die antwort

So teilen Sie Vector in Spalten auf - mit PySpark

Kontext Ich habe einDataFrame mit 2 Spalten: Wort und Vektor. Wo der Spaltentyp von "Vektor" istVectorUDT. Ein Beispiel word | vector assert | [435,323,324,212...] ,Und ich möchte Folgendes erhalten: word | v1 | v2 | v3 | v4 | v5 | v6 ...... ...