Suchergebnisse für Anfrage "apache-spark-sql"
Wie definiere ich eine benutzerdefinierte Aggregationsfunktion, um eine Vektorspalte zu summieren?
Ich habe einen DataFrame mit zwei Spalten,ID vom TypInt undVec vom TypVector (org.apache.spark.mllib.linalg.Vector). Der DataFrame sieht folgendermaßen aus: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ...
Spark dataframe transformiert mehrere Zeilen in eine Spalte
Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...
Spark SQL-Referenzierungsattribute von UDT
Ich versuche, einen benutzerdefinierten UDT zu implementieren und in der Lage zu sein, auf ihn in Spark SQL zu verweisen (wie im Spark SQL-Whitepaper, Abschnitt 4.4.2 erläutert). Das eigentliche Beispiel besteht darin, einen benutzerdefinierten ...
Sparksql-Filterung (Auswahl mit WHERE-Klausel) mit mehreren Bedingungen
Hallo, ich habe das folgende Problem: numeric.registerTempTable("numeric").Alle Werte, nach denen ich filtern möchte, sind Literal-Null-Zeichenfolgen und keine N / A- oder Null-Werte. Ich habe diese drei Optionen ...
So filtern Sie in Spark SQL nach Datumsbereich
Ich versuche, den Datumsbereich mithilfe von Datenblöcken aus den folgenden Daten herauszufiltern, die als Antwort null zurückgeben. Meine CSV-Daten sehen so aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, ...
Wie kann ich einen Spark-DataFrame aus einem verschachtelten Array von Strukturelementen erstellen?
Ich habe eine JSON-Datei in Spark eingelesen. Diese Datei hat folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: ...
Zufällige Elemente aus einem Spark GroupedData-Objekt auswählen
Ich bin neu in der Verwendung von Spark in Python und konnte dieses Problem nicht lösen: Nach dem Ausführen vongroupBy auf einenpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')wie kannst du @ ...
Spark, Scala, DataFrame: Feature-Vektoren erstellen
Ich habe einDataFrame das sieht aus wie folgt: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 Die Anzahl der unterschiedlichen Kategorien beträgt 10, und ich möchte für jedes @ ...
Differenz zwischen Filter und wo in Scala Spark SQL
Ich habe beide ausprobiert, aber es funktioniert gleich Beispie val items = List(1, 2, 3) using filter employees.filter($"emp_id".isin(items:_*)).show using where employees.where($"emp_id".isin(items:_*)).showErgebnis ist für beide ...
Zurückgeben mehrerer Arrays aus einer benutzerdefinierten Aggregatfunktion (UDAF) in Apache Spark SQL
Ich versuche, eine benutzerdefinierte Aggregatfunktion (UDAF) in Java mit Apache Spark SQL zu erstellen, die nach Abschluss mehrere Arrays zurückgibt. Ich habe online gesucht und kann keine Beispiele oder Vorschläge dazu finden. Ich kann ein ...