Suchergebnisse für Anfrage "apache-spark-sql"
Immer mehr physischer Speicher für eine Spark-Anwendung in YARN
Ich führe eine Spark-Anwendung in YARN mit zwei Executoren mit Xms / Xmx als 32 GB und spark.yarn.excutor.memoryOverhead als 6 GB aus. Ich sehe, dass der physische Speicher der Anwendung immer größer wird und schließlich vom Node Manager ...
Spark Abfrage läuft sehr langsam
Ich habe einen Cluster auf AWS mit 2 Slaves und 1 Master. Alle Instanzen sind vom Typ m1.large. Ich verwende Spark Version 1.4. Ich vergleiche die Leistung von Funken über 4 m Daten, die von der Rotverschiebung stammen. Ich habe eine Anfrage über ...
Berechnen Sie die Standardabweichung gruppierter Daten in einem Spark DataFrame
Ich habe Benutzerprotokolle, die ich aus einer CSV-Datei entnommen und in einen DataFrame konvertiert habe, um die SparkSQL-Abfragefunktionen zu nutzen. Ein einzelner Benutzer erstellt mehrere Einträge pro Stunde, und ich möchte ...
Spark dataframes groupby in list
Ich versuche, einige Analysen an Sets durchzuführen. Ich habe einen Beispieldatensatz, der so aussieht: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}lles in allem ist es ein einzelnes Feld, das eine ...
SPARK: Fehler: `` union '' erwartet, aber `('gefunden
Ich habe einen Datenrahmen mit dem Namen df und der Spalte employee_id. Ich mache df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...
Wie kann ich programmgesteuert in SparkSQL eine Verbindung zu einem Hive-Metastore herstellen?
Ich verwende HiveContext mit SparkSQL und versuche, eine Verbindung zu einem Remote-Hive-Metastore herzustellen. Die einzige Möglichkeit, den Hive-Metastore festzulegen, besteht darin, die Datei hive-site.xml in den Klassenpfad aufzunehmen (oder ...
Spark: Schreiben von DataFrame als komprimiertes JSON
Apache Spark'sDataFrameReader.json() kann gzippte JSONlines-Dateien automatisch verarbeiten, aber es scheint keine Möglichkeit zu geben, an @ zu gelangeDataFrameWriter.json(), um komprimierte JSONlines-Dateien zu schreiben. Die zusätzliche ...
So exportieren Sie Daten von Spark SQL nach CSV
Dieser Befehl funktioniert mit HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Aber mit Spark SQL erhalte ich einen Fehler mit einemorg.apache.spark.sql.hive.HiveQl Stack-Trace: java.lang.RuntimeException: ...
Spark SQL - Escape Query String
Ich kann nicht glauben, dass ich das frage, aber ... WIE ENTSTEHT EINE SQL-ABFRAGE IN SPARK SQL MIT SCALA? ch habe alles satt und überall gesucht. Ich dachte, die Apache Commons Library würde es tun, aber kein Glück: import ...
PySpark, Schema über JSON-Datei importieren
tbschema.json sieht aus wie das [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Ich lade es mit folgendem Code >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...