Suchergebnisse für Anfrage "apache-spark"
Zurückgeben mehrerer Arrays aus einer benutzerdefinierten Aggregatfunktion (UDAF) in Apache Spark SQL
Ich versuche, eine benutzerdefinierte Aggregatfunktion (UDAF) in Java mit Apache Spark SQL zu erstellen, die nach Abschluss mehrere Arrays zurückgibt. Ich habe online gesucht und kann keine Beispiele oder Vorschläge dazu finden. Ich kann ein ...
Wie definiere ich eine benutzerdefinierte Aggregationsfunktion, um eine Vektorspalte zu summieren?
Ich habe einen DataFrame mit zwei Spalten,ID vom TypInt undVec vom TypVector (org.apache.spark.mllib.linalg.Vector). Der DataFrame sieht folgendermaßen aus: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ...
Avro Schema zum Auslösen von StructType
Dies ist praktisch dasselbe wie mein vorherige Frage [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , aber Avro anstelle von JSON als Datenformat verwenden. Ich arbeite mit einem Spark-Datenframe, der ...
Wie teste ich PySpark-Programme?
Mein aktueller Java / Spark Unit Test-Ansatz funktioniert (ausführlichHie [https://stackoverflow.com/a/32213314/2596363]) durch Instantiieren eines SparkContext mit "local" und Ausführen von Komponententests mit JUnit. Der Code muss so ...
SparkSQL: Bedingte Summe mit zwei Spalten
Ich hoffe du kannst mir dabei helfen. Ich habe einen DF wie folgt: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
Numpy Fehler beim Drucken eines RDD in Spark mit Ipython
Ich versuche ein @ zu druckRDD usingSpark imIpython und wenn ich das tue bekomme ich diesen Fehler: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...
Spark dataframe transformiert mehrere Zeilen in eine Spalte
Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...
Rang einer Zeile berechnen
Ich möchte die Benutzer-ID anhand eines Feldes bewerten. Für den gleichen Wert des Feldes sollte der Rang gleich sein. Diese Daten befinden sich in der Hive-Tabelle. z.B user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Wie kann ich das ...
Sparksql-Filterung (Auswahl mit WHERE-Klausel) mit mehreren Bedingungen
Hallo, ich habe das folgende Problem: numeric.registerTempTable("numeric").Alle Werte, nach denen ich filtern möchte, sind Literal-Null-Zeichenfolgen und keine N / A- oder Null-Werte. Ich habe diese drei Optionen ...
Spark SQL-Referenzierungsattribute von UDT
Ich versuche, einen benutzerdefinierten UDT zu implementieren und in der Lage zu sein, auf ihn in Spark SQL zu verweisen (wie im Spark SQL-Whitepaper, Abschnitt 4.4.2 erläutert). Das eigentliche Beispiel besteht darin, einen benutzerdefinierten ...