Suchergebnisse für Anfrage "apache-spark-sql"

4 die antwort

Wie definiere ich eine benutzerdefinierte Aggregationsfunktion, um eine Vektorspalte zu summieren?

Ich habe einen DataFrame mit zwei Spalten,ID vom TypInt undVec vom TypVector (org.apache.spark.mllib.linalg.Vector). Der DataFrame sieht folgendermaßen aus: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ...

4 die antwort

Spark dataframe transformiert mehrere Zeilen in eine Spalte

Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...

2 die antwort

Spark SQL-Referenzierungsattribute von UDT

Ich versuche, einen benutzerdefinierten UDT zu implementieren und in der Lage zu sein, auf ihn in Spark SQL zu verweisen (wie im Spark SQL-Whitepaper, Abschnitt 4.4.2 erläutert). Das eigentliche Beispiel besteht darin, einen benutzerdefinierten ...

TOP-Veröffentlichungen

2 die antwort

Sparksql-Filterung (Auswahl mit WHERE-Klausel) mit mehreren Bedingungen

Hallo, ich habe das folgende Problem: numeric.registerTempTable("numeric").Alle Werte, nach denen ich filtern möchte, sind Literal-Null-Zeichenfolgen und keine N / A- oder Null-Werte. Ich habe diese drei Optionen ...

2 die antwort

So filtern Sie in Spark SQL nach Datumsbereich

Ich versuche, den Datumsbereich mithilfe von Datenblöcken aus den folgenden Daten herauszufiltern, die als Antwort null zurückgeben. Meine CSV-Daten sehen so aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, ...

6 die antwort

Wie kann ich einen Spark-DataFrame aus einem verschachtelten Array von Strukturelementen erstellen?

Ich habe eine JSON-Datei in Spark eingelesen. Diese Datei hat folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: ...

2 die antwort

Zufällige Elemente aus einem Spark GroupedData-Objekt auswählen

Ich bin neu in der Verwendung von Spark in Python und konnte dieses Problem nicht lösen: Nach dem Ausführen vongroupBy auf einenpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')wie kannst du @ ...

6 die antwort

Spark, Scala, DataFrame: Feature-Vektoren erstellen

Ich habe einDataFrame das sieht aus wie folgt: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 Die Anzahl der unterschiedlichen Kategorien beträgt 10, und ich möchte für jedes @ ...

6 die antwort

Differenz zwischen Filter und wo in Scala Spark SQL

Ich habe beide ausprobiert, aber es funktioniert gleich Beispie val items = List(1, 2, 3) using filter employees.filter($"emp_id".isin(items:_*)).show using where employees.where($"emp_id".isin(items:_*)).showErgebnis ist für beide ...

2 die antwort

Zurückgeben mehrerer Arrays aus einer benutzerdefinierten Aggregatfunktion (UDAF) in Apache Spark SQL

Ich versuche, eine benutzerdefinierte Aggregatfunktion (UDAF) in Java mit Apache Spark SQL zu erstellen, die nach Abschluss mehrere Arrays zurückgibt. Ich habe online gesucht und kann keine Beispiele oder Vorschläge dazu finden. Ich kann ein ...