Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Spark SQL-Abfrageausführung auf Hive

Ich bin neu in Spark SQL, kenne aber das Framework für die Ausführung von Hive-Abfragen. Ich möchte verstehen, wie Spark SQL-Abfragen ausführt (technische Beschreibung). Wenn ich unter Befehl feuere val sqlContext = new ...

6 die antwort

PySpark: Einzelne Datei beim Schreiben ausspucken anstatt mehrere Teiledateien

Gibt es eine Möglichkeit zu verhindern, dass PySpark beim Schreiben eines DataFrame in eine JSON-Datei mehrere kleine Dateien erstellt? Wenn ich laufe: df.write.format('json').save('myfile.json')ode df1.write.json('myfile.json')it erstellt ...

2 die antwort

Unterstützt spark-sql mehrere Begrenzer in den Eingabedaten?

Ich habe Eingabedaten mit mehreren einzelnen Zeichenbegrenzern wie folgt: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3In den obigen Daten sind die ["], [;] meine ...

TOP-Veröffentlichungen

2 die antwort

Spark SQL - Wie schreibe ich DataFrame in eine Textdatei?

Ich benutzeSpark SQL zum Lesen und Schreiben von Parkettdateien. Aber in einigen Fällen muss ich das @ schreibDataFrame als Textdatei anstelle von Json oder Parkett. Werden Standardmethoden unterstützt oder muss ich diesen DataFrame nach ...

10 die antwort

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...

2 die antwort

Holen Sie sich eine java.lang.LinkageError: ClassCastException, wenn Sie spark sql hivesql auf yarn @ verwende

Dies ist der Treiber, den ich in das Garn-Cluster hochlade: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ...

6 die antwort

Spark Dataset API - Join

Ich versuche den Spark zu benutzen Dataset [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html] API, aber ich habe einige Probleme beim Ausführen eines einfachen Joins. Nehmen wir an, ich habe zwei Datensätze mit ...

8 die antwort

Filtern von Zeilen basierend auf Spaltenwerten in der Spark-Datenrahmenskala

Ich habe einen Datenrahmen (Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0Ich möchte einen neuen Datenrahmen erstellen: 3 0 3 1 4 1Notwendig, alle Zeilen nach 1 (Wert) für jede ID zu entfernen. Ich habe es mit Fensterfunktionen in Spark Dateframe ...

2 die antwort

Finden Sie das Minimum für einen Zeitstempel über Spark groupBy dataframe

Wenn ich versuche, meinen Datenrahmen in einer Spalte zu gruppieren, versuche ich, das Minimum für jede Gruppierung zu findengroupbyDatafram.min('timestampCol') es scheint, ich kann es nicht für nicht numerische Spalten tun. Wie kann ich dann das ...

4 die antwort

Spark Build Custom Column Function, benutzerdefinierte Funktion

Ich verwende Scala und möchte meine eigene DataFrame-Funktion erstellen. Zum Beispiel möchte ich eine Spalte wie ein Array behandeln, jedes Element durchlaufen und eine Berechnung durchführen. Zu Beginn versuche ich, meine eigene getMax-Methode ...