Suchergebnisse für Anfrage "apache-spark-sql"
Spark partitionBy viel langsamer als ohne
Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...
Warum führt die Verwendung einer UDF in einer SQL-Abfrage zu einem kartesischen Produkt?
Ich sah Databricks-Frage [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] und verstehe nicht Warum führt die Verwendung von UDFs zu einem kartesischen Produkt anstelle einer vollständigen ...
SQL-Datei in Spark mit Python ausführen
from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("Test").set("spark.driver.memory", "1g") sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results ...
Flattening Rows in Spark
Ich teste mit Scala auf Funken. Wir lesen normalerweise JSON-Dateien, die wie im folgenden Beispiel bearbeitet werden müssen: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Wie kann ich es in das folgende Format ...
Encode und Assemblieren mehrerer Funktionen in PySpark
Ich habe eine Python-Klasse, mit der ich einige Daten in Spark lade und verarbeite. Unter anderem muss ich eine Liste von Dummy-Variablen generieren, die aus verschiedenen Spalten in einem Spark-Datenrahmen abgeleitet wurden. Mein Problem ist, ...
Wie drücke ich eine Spalte aus, deren Name Leerzeichen in Spark SQL enthält?
Wir haben versucht, den Spaltennamen in eckige Klammern zu setzen.[column name], einfache und doppelte Anführungszeichen und Backticks, keiner von ihnen funktioniert. Enthält der Spark SQL-Support Spalten, deren Name Leerzeichen ...
Eine leere Spalte zu Spark DataFrame hinzufügen
Wie in @ erwähviel [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] weitere Standorte [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] as ...
Spark Werte aus einer Zeile extrahieren
Ich habe den folgenden Datenrahmen val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""") Ich versuche, die Zeilen in ...
Apache Zeppelin Tutorial, Fehler "SQL Interpreter nicht gefunden"
In dem "Zeppelin Tutorial "Notebook, ich kann das @ nicht verwend% sql interpreter. Es wird "sql interpreter not found ". Aber die Funkenbefehle funktionieren genauso gut wie%md und%sh. Hier ist das Protokoll: ERROR [2015-10-20 10: 13: 35,045] ...
Mehrere verschiedene Spalten mit Spark Dataframe-Scala in Map-Spalten konvertieren
Ich habe einen Datenrahmen mit der Spalte:user, address1, address2, address3, phone1, phone2 und so weiter. Ich möchte diesen Datenrahmen in - @ konvertieruser, address, phone where address = Map("address1" -> address1.value, "address2" -> ...