Suchergebnisse für Anfrage "apache-spark-sql"
Spark SQL-Abfrageausführung auf Hive
Ich bin neu in Spark SQL, kenne aber das Framework für die Ausführung von Hive-Abfragen. Ich möchte verstehen, wie Spark SQL-Abfragen ausführt (technische Beschreibung). Wenn ich unter Befehl feuere val sqlContext = new ...
PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien
Gibt es eine Möglichkeit zu verhindern, dass PySpark beim Schreiben eines DataFrame in eine JSON-Datei mehrere kleine Dateien erstellt? Wenn ich laufe: df.write.format('json').save('myfile.json')ode df1.write.json('myfile.json')it erstellt ...
Unterstützt spark-sql mehrere Begrenzer in den Eingabedaten?
Ich habe Eingabedaten mit mehreren einzelnen Zeichenbegrenzern wie folgt: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3In den obigen Daten sind die ["], [;] meine ...
Spark SQL - Wie schreibe ich DataFrame in eine Textdatei?
Ich benutzeSpark SQL zum Lesen und Schreiben von Parkettdateien. Aber in einigen Fällen muss ich das @ schreibDataFrame als Textdatei anstelle von Json oder Parkett. Werden Standardmethoden unterstützt oder muss ich diesen DataFrame nach ...
Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen
Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...
Holen Sie sich eine java.lang.LinkageError: ClassCastException, wenn Sie spark sql hivesql auf yarn @ verwende
Dies ist der Treiber, den ich in das Garn-Cluster hochlade: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ...
Spark Dataset API - Join
Ich versuche den Spark zu benutzen Dataset [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html] API, aber ich habe einige Probleme beim Ausführen eines einfachen Joins. Nehmen wir an, ich habe zwei Datensätze mit ...
Filtern von Zeilen basierend auf Spaltenwerten in der Spark-Datenrahmenskala
Ich habe einen Datenrahmen (Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0Ich möchte einen neuen Datenrahmen erstellen: 3 0 3 1 4 1Notwendig, alle Zeilen nach 1 (Wert) für jede ID zu entfernen. Ich habe es mit Fensterfunktionen in Spark Dateframe ...
Finden Sie das Minimum für einen Zeitstempel über Spark groupBy dataframe
Wenn ich versuche, meinen Datenrahmen in einer Spalte zu gruppieren, versuche ich, das Minimum für jede Gruppierung zu findengroupbyDatafram.min('timestampCol') es scheint, ich kann es nicht für nicht numerische Spalten tun. Wie kann ich dann das ...
Spark Build Custom Column Function, benutzerdefinierte Funktion
Ich verwende Scala und möchte meine eigene DataFrame-Funktion erstellen. Zum Beispiel möchte ich eine Spalte wie ein Array behandeln, jedes Element durchlaufen und eine Berechnung durchführen. Zu Beginn versuche ich, meine eigene getMax-Methode ...