Suchergebnisse für Anfrage "apache-spark-sql"

4 die antwort

So speichern / fügen Sie jeden DStream in eine permanente Tabelle ein

Ich habe ein Problem mit "Spark Streaming" bezüglich des Einfügens von Output Dstream in ein permanent SQL-Tabelle. Ich möchte jeden Ausgabe-DStream (der aus einem einzelnen Stapel stammt, der Prozesse auslöst) in eine eindeutige ...

6 die antwort

Wie erstelle ich SparkSession mit Hive-Unterstützung (schlägt fehl, wenn "Hive-Klassen nicht gefunden werden")?

Ich erhalte diese Fehlermeldung, wenn ich versuche, diesen Code auszuführen. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] ...

10 die antwort

Spark DataFrame: behält groupBy nach orderBy diese Reihenfolge bei?

Ich habe einen Spark 2.0-Datenrahmenexample mit der folgenden Struktur: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc. Es enthält 24 Einträge für jede ID (einen für jede Stunde des Tages) und wird ...

TOP-Veröffentlichungen

2 die antwort

Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?

Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...

8 die antwort

Wie wähle ich die letzte Zeile aus und wie greife ich über den Index auf PySpark-Datenrahmen zu?

Von einem PySpark SQL-Datenrahmen wie name age city abc 20 A def 30 BWie erhalte ich die letzte Zeile? (Wie bei df.limit (1) kann ich die erste Zeile des Datenrahmens in einen neuen Datenrahmen umwandeln). Und wie kann ich über den Index auf ...

2 die antwort

Wie man von spark @ eine Verbindung zum Remote-Hive-Server herstel

Ich führe Spark lokal aus und möchte auf Hive-Tabellen zugreifen, die sich im fernen Hadoop-Cluster befinden. Ich kann auf die Hive-Tabellen zugreifen, indem ich beeline unter SPARK_HOME @ start [ml@master spark-2.0.0]$./bin/beeline Beeline ...

6 die antwort

Löschen mehrerer Spalten aus Spark-Datenrahmen durch Durchlaufen der Spalten aus einer Scala-Liste mit Spaltennamen

Ich habe einen Datenrahmen mit Spalten um 400. Ich möchte 100 Spalten gemäß meiner Anforderung löschen. Deshalb habe ich eine Scala-Liste mit 100 Spaltennamen erstellt. Und dann möchte ich durch eine for-Schleife iterieren, um die Spalte in jeder ...

12 die antwort

Provide Schema beim Lesen der CSV-Datei als Datenframe

Ich versuche, eine CSV-Datei in einen Datenrahmen einzulesen. Ich weiß, wie das Schema meines Datenrahmens aussehen soll, da ich meine CSV-Datei kenne. Außerdem verwende ich das Spark-CSV-Paket, um die Datei zu lesen. Ich versuche, das Schema ...

2 die antwort

Spark Daten laden und Dateinamen als Datenrahmenspalte hinzufügen

Ich lade einige Daten mit einer Wrapper-Funktion in Spark: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

16 die antwort

Wie führe ich eine Vereinigung für zwei DataFrames mit unterschiedlicher Spaltenanzahl im Spark durch?

Ich habe 2DataFrames wie folgt: [/imgs/L4qs0.png] Ich brauche Gewerkschaft wie folgt: [/imgs/mdICY.png] DasunionAll -Funktion funktioniert nicht, da die Anzahl und der Name der Spalten unterschiedlich sind. Wie kann ich das machen