Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Zurückgeben mehrerer Arrays aus einer benutzerdefinierten Aggregatfunktion (UDAF) in Apache Spark SQL

Ich versuche, eine benutzerdefinierte Aggregatfunktion (UDAF) in Java mit Apache Spark SQL zu erstellen, die nach Abschluss mehrere Arrays zurückgibt. Ich habe online gesucht und kann keine Beispiele oder Vorschläge dazu finden. Ich kann ein ...

4 die antwort

Wie definiere ich eine benutzerdefinierte Aggregationsfunktion, um eine Vektorspalte zu summieren?

Ich habe einen DataFrame mit zwei Spalten,ID vom TypInt undVec vom TypVector (org.apache.spark.mllib.linalg.Vector). Der DataFrame sieht folgendermaßen aus: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ...

4 die antwort

Avro Schema zum Auslösen von StructType

Dies ist praktisch dasselbe wie mein vorherige Frage [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , aber Avro anstelle von JSON als Datenformat verwenden. Ich arbeite mit einem Spark-Datenframe, der ...

TOP-Veröffentlichungen

10 die antwort

Wie teste ich PySpark-Programme?

Mein aktueller Java / Spark Unit Test-Ansatz funktioniert (ausführlichHie [https://stackoverflow.com/a/32213314/2596363]) durch Instantiieren eines SparkContext mit "local" und Ausführen von Komponententests mit JUnit. Der Code muss so ...

2 die antwort

SparkSQL: Bedingte Summe mit zwei Spalten

Ich hoffe du kannst mir dabei helfen. Ich habe einen DF wie folgt: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

0 die antwort

Numpy Fehler beim Drucken eines RDD in Spark mit Ipython

Ich versuche ein @ zu druckRDD usingSpark imIpython und wenn ich das tue bekomme ich diesen Fehler: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...

4 die antwort

Spark dataframe transformiert mehrere Zeilen in eine Spalte

Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...

2 die antwort

Rang einer Zeile berechnen

Ich möchte die Benutzer-ID anhand eines Feldes bewerten. Für den gleichen Wert des Feldes sollte der Rang gleich sein. Diese Daten befinden sich in der Hive-Tabelle. z.B user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Wie kann ich das ...

2 die antwort

Sparksql-Filterung (Auswahl mit WHERE-Klausel) mit mehreren Bedingungen

Hallo, ich habe das folgende Problem: numeric.registerTempTable("numeric").Alle Werte, nach denen ich filtern möchte, sind Literal-Null-Zeichenfolgen und keine N / A- oder Null-Werte. Ich habe diese drei Optionen ...

2 die antwort

Spark SQL-Referenzierungsattribute von UDT

Ich versuche, einen benutzerdefinierten UDT zu implementieren und in der Lage zu sein, auf ihn in Spark SQL zu verweisen (wie im Spark SQL-Whitepaper, Abschnitt 4.4.2 erläutert). Das eigentliche Beispiel besteht darin, einen benutzerdefinierten ...