Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Probleme beim Ausführen mehrerer Abfragen mit Spark und HiveSQL

Ich hoffe, jemand kann mir bei diesem Problem helfen. In der Spark-Shell, wo, wenn ich so etwas versuche: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if exists" var ...

6 die antwort

Was ist der Unterschied zwischen Apache Spark SQLContext und HiveContext?

Was sind die Unterschiede zwischen Apache Spark SQLContext und HiveContext? Einige Quellen sagen, dass Entwickler, da der HiveContext eine Obermenge von SQLContext ist, immer HiveContext verwenden sollten, das mehr Funktionen als SQLContext ...

2 die antwort

gib TopN aller Gruppen nach Gruppe mit Spark DataFrame

Ich habe einen Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Wie nach Benutzer gruppieren und dann @ zurückgebTopN Elemente aus jeder Gruppe, die Scala verwendet? Ähnlichkeitscode mit ...

TOP-Veröffentlichungen

8 die antwort

value toDF ist kein Mitglied von org.apache.spark.rdd.RDD

Ausnahme: val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person]Hier istTestApp.scala Datei package main.scala import ...

4 die antwort

Unterstützt SparkSQL Unterabfragen?

Ich führe diese Abfrage in der Spark-Shell aus, aber es gibt mir einen Fehler. sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)Error java.lang.RuntimeException: [1.47] ...

2 die antwort

Rang einer Zeile berechnen

Ich möchte die Benutzer-ID anhand eines Feldes bewerten. Für den gleichen Wert des Feldes sollte der Rang gleich sein. Diese Daten befinden sich in der Hive-Tabelle. z.B user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Wie kann ich das ...

16 die antwort

Wie wird die erste Zeile jeder Gruppe ausgewählt?

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen so aus: +----+--------+----------+ |Hour|Category|TotalValue| ...

4 die antwort

Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark

Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...

2 die antwort

SparkSQL: Bedingte Summe mit zwei Spalten

Ich hoffe du kannst mir dabei helfen. Ich habe einen DF wie folgt: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

4 die antwort

Avro Schema zum Auslösen von StructType

Dies ist praktisch dasselbe wie mein vorherige Frage [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , aber Avro anstelle von JSON als Datenformat verwenden. Ich arbeite mit einem Spark-Datenframe, der ...