Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Immer mehr physischer Speicher für eine Spark-Anwendung in YARN

Ich führe eine Spark-Anwendung in YARN mit zwei Executoren mit Xms / Xmx als 32 GB und spark.yarn.excutor.memoryOverhead als 6 GB aus. Ich sehe, dass der physische Speicher der Anwendung immer größer wird und schließlich vom Node Manager ...

4 die antwort

Spark Abfrage läuft sehr langsam

Ich habe einen Cluster auf AWS mit 2 Slaves und 1 Master. Alle Instanzen sind vom Typ m1.large. Ich verwende Spark Version 1.4. Ich vergleiche die Leistung von Funken über 4 m Daten, die von der Rotverschiebung stammen. Ich habe eine Anfrage über ...

2 die antwort

Berechnen Sie die Standardabweichung gruppierter Daten in einem Spark DataFrame

Ich habe Benutzerprotokolle, die ich aus einer CSV-Datei entnommen und in einen DataFrame konvertiert habe, um die SparkSQL-Abfragefunktionen zu nutzen. Ein einzelner Benutzer erstellt mehrere Einträge pro Stunde, und ich möchte ...

TOP-Veröffentlichungen

2 die antwort

Spark dataframes groupby in list

Ich versuche, einige Analysen an Sets durchzuführen. Ich habe einen Beispieldatensatz, der so aussieht: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}lles in allem ist es ein einzelnes Feld, das eine ...

4 die antwort

SPARK: Fehler: `` union '' erwartet, aber `('gefunden

Ich habe einen Datenrahmen mit dem Namen df und der Spalte employee_id. Ich mache df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...

10 die antwort

Wie kann ich programmgesteuert in SparkSQL eine Verbindung zu einem Hive-Metastore herstellen?

Ich verwende HiveContext mit SparkSQL und versuche, eine Verbindung zu einem Remote-Hive-Metastore herzustellen. Die einzige Möglichkeit, den Hive-Metastore festzulegen, besteht darin, die Datei hive-site.xml in den Klassenpfad aufzunehmen (oder ...

6 die antwort

Spark: Schreiben von DataFrame als komprimiertes JSON

Apache Spark'sDataFrameReader.json() kann gzippte JSONlines-Dateien automatisch verarbeiten, aber es scheint keine Möglichkeit zu geben, an @ zu gelangeDataFrameWriter.json(), um komprimierte JSONlines-Dateien zu schreiben. Die zusätzliche ...

14 die antwort

So exportieren Sie Daten von Spark SQL nach CSV

Dieser Befehl funktioniert mit HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Aber mit Spark SQL erhalte ich einen Fehler mit einemorg.apache.spark.sql.hive.HiveQl Stack-Trace: java.lang.RuntimeException: ...

4 die antwort

Spark SQL - Escape Query String

Ich kann nicht glauben, dass ich das frage, aber ... WIE ENTSTEHT EINE SQL-ABFRAGE IN SPARK SQL MIT SCALA? ch habe alles satt und überall gesucht. Ich dachte, die Apache Commons Library würde es tun, aber kein Glück: import ...

2 die antwort

PySpark, Schema über JSON-Datei importieren

tbschema.json sieht aus wie das [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Ich lade es mit folgendem Code >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...