Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...

2 die antwort

Warum führt die Verwendung einer UDF in einer SQL-Abfrage zu einem kartesischen Produkt?

Ich sah Databricks-Frage [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] und verstehe nicht Warum führt die Verwendung von UDFs zu einem kartesischen Produkt anstelle einer vollständigen ...

6 die antwort

SQL-Datei in Spark mit Python ausführen

from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("Test").set("spark.driver.memory", "1g") sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results ...

TOP-Veröffentlichungen

4 die antwort

Flattening Rows in Spark

Ich teste mit Scala auf Funken. Wir lesen normalerweise JSON-Dateien, die wie im folgenden Beispiel bearbeitet werden müssen: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Wie kann ich es in das folgende Format ...

2 die antwort

Encode und Assemblieren mehrerer Funktionen in PySpark

Ich habe eine Python-Klasse, mit der ich einige Daten in Spark lade und verarbeite. Unter anderem muss ich eine Liste von Dummy-Variablen generieren, die aus verschiedenen Spalten in einem Spark-Datenrahmen abgeleitet wurden. Mein Problem ist, ...

4 die antwort

Wie drücke ich eine Spalte aus, deren Name Leerzeichen in Spark SQL enthält?

Wir haben versucht, den Spaltennamen in eckige Klammern zu setzen.[column name], einfache und doppelte Anführungszeichen und Backticks, keiner von ihnen funktioniert. Enthält der Spark SQL-Support Spalten, deren Name Leerzeichen ...

4 die antwort

Eine leere Spalte zu Spark DataFrame hinzufügen

Wie in @ erwähviel [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] weitere Standorte [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] as ...

6 die antwort

Spark Werte aus einer Zeile extrahieren

Ich habe den folgenden Datenrahmen val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""") Ich versuche, die Zeilen in ...

4 die antwort

Apache Zeppelin Tutorial, Fehler "SQL Interpreter nicht gefunden"

In dem "Zeppelin Tutorial "Notebook, ich kann das @ nicht verwend% sql interpreter. Es wird "sql interpreter not found ". Aber die Funkenbefehle funktionieren genauso gut wie%md und%sh. Hier ist das Protokoll: ERROR [2015-10-20 10: 13: 35,045] ...

2 die antwort

Mehrere verschiedene Spalten mit Spark Dataframe-Scala in Map-Spalten konvertieren

Ich habe einen Datenrahmen mit der Spalte:user, address1, address2, address3, phone1, phone2 und so weiter. Ich möchte diesen Datenrahmen in - @ konvertieruser, address, phone where address = Map("address1" -> address1.value, "address2" -> ...