Suchergebnisse für Anfrage "apache-spark-sql"
Probleme beim Ausführen mehrerer Abfragen mit Spark und HiveSQL
Ich hoffe, jemand kann mir bei diesem Problem helfen. In der Spark-Shell, wo, wenn ich so etwas versuche: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if exists" var ...
Was ist der Unterschied zwischen Apache Spark SQLContext und HiveContext?
Was sind die Unterschiede zwischen Apache Spark SQLContext und HiveContext? Einige Quellen sagen, dass Entwickler, da der HiveContext eine Obermenge von SQLContext ist, immer HiveContext verwenden sollten, das mehr Funktionen als SQLContext ...
gib TopN aller Gruppen nach Gruppe mit Spark DataFrame
Ich habe einen Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Wie nach Benutzer gruppieren und dann @ zurückgebTopN Elemente aus jeder Gruppe, die Scala verwendet? Ähnlichkeitscode mit ...
value toDF ist kein Mitglied von org.apache.spark.rdd.RDD
Ausnahme: val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person]Hier istTestApp.scala Datei package main.scala import ...
Unterstützt SparkSQL Unterabfragen?
Ich führe diese Abfrage in der Spark-Shell aus, aber es gibt mir einen Fehler. sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)Error java.lang.RuntimeException: [1.47] ...
Rang einer Zeile berechnen
Ich möchte die Benutzer-ID anhand eines Feldes bewerten. Für den gleichen Wert des Feldes sollte der Rang gleich sein. Diese Daten befinden sich in der Hive-Tabelle. z.B user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Wie kann ich das ...
Wie wird die erste Zeile jeder Gruppe ausgewählt?
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen so aus: +----+--------+----------+ |Hour|Category|TotalValue| ...
Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark
Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...
SparkSQL: Bedingte Summe mit zwei Spalten
Ich hoffe du kannst mir dabei helfen. Ich habe einen DF wie folgt: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
Avro Schema zum Auslösen von StructType
Dies ist praktisch dasselbe wie mein vorherige Frage [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , aber Avro anstelle von JSON als Datenformat verwenden. Ich arbeite mit einem Spark-Datenframe, der ...