Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

pyspark: DataFrame in RDD konvertieren [string]

Ich würde gerne konvertierenpyspark.sql.dataframe.DataFrame zupyspark.rdd.RDD[String] Ich habe einen DataFrame konvertiertdf zu RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDdie neue RDDdata enthältRow first = data.first() type(first) ...

8 die antwort

SPARK SQL - MySql-Tabelle mit DataFrames und JDBC aktualisieren

Ich versuche, mit Spark SQL DataFrames und JDBC-Verbindung einige Daten in MySql einzufügen und zu aktualisieren. Es ist mir gelungen, mit dem SaveMode.Append neue Daten einzufügen. Gibt es eine Möglichkeit, die in MySql Table bereits ...

4 die antwort

Wie ein Spark-Datenrahmen zwischengespeichert und in einem anderen Skript referenziert wird

Ist es möglich, einen Datenrahmen zwischenzuspeichern und ihn dann in einem anderen Skript zu referenzieren (abzufragen)? ... Mein Ziel lautet: Erstellen Sie in Skript 1 einen Datenrahmen (df) Skript 1 ausführen und df @ zwischenspeicheragen Sie ...

TOP-Veröffentlichungen

2 die antwort

erwenden Sie collect_list und collect_set in Spark SQ

Laut dem docs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , dascollect_set undcollect_list -Funktionen sollten in Spark SQL verfügbar sein. Ich kann es jedoch nicht zum Laufen bringen. Ich verwende ...

12 die antwort

Wie füge ich Spark DataFrame eine persistente Spalte mit Zeilen-IDs hinzu?

Diese Frage ist nicht neu, aber ich finde überraschendes Verhalten in Spark. Ich muss einem DataFrame eine Spalte mit Zeilen-IDs hinzufügen. Ich habe die DataFrame-Methode monotonically_increasing_id () verwendet, und es gibt mir eine zusätzliche ...

4 die antwort

So schließen Sie mehrere Spalten in Spark-Datenrahmen in Python aus

Ich habe festgestellt, dass PySpark eine Methode namens @ hadrop aber es scheint, dass es nur eine Spalte auf einmal fallen lassen kann. Irgendwelche Ideen, wie Sie mehrere Spalten gleichzeitig löschen können? df.drop(['col1','col2']) TypeError ...

2 die antwort

Filter Spark DataFrame für String enthält

Ich benutzeSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html] undSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Ich arbeite vondas Beispiel ...

6 die antwort

Wie transponiere ich Datenrahmen in Spark 1.5 (kein Pivot-Operator verfügbar)?

Ich möchte folgende Tabelle mit Spark-Scala ohne Pivot-Funktion transponieren Ich verwende Spark 1.5.1 und die Pivot-Funktion wird in 1.5.1 nicht unterstützt. Bitte schlagen Sie eine geeignete Methode zur Umsetzung der folgenden Tabelle ...

4 die antwort

Verwenden von Fensterfunktionen in Spark

Ich versuche, rowNumber in Spark-Datenrahmen zu verwenden. Meine Abfragen funktionieren erwartungsgemäß in der Spark-Shell. Aber wenn ich sie in Eclipse ausschreibe und ein Glas kompiliere, stoße ich auf einen Fehler 16/03/23 05:52:43 ERROR ...

2 die antwort

Apache Spark on Mesos: Anfänglicher Job hat keine Ressourcen akzeptiert

Ich führe Apache Spark im Cluster-Modus mit Apache Mesos aus. Wenn ich jedoch Spark-Shell starte, um einen einfachen Testbefehl (sc.parallelize (0 bis 10, 8) .count) auszuführen, wird die folgende Warnmeldung angezeigt: 16/03/10 11:50:55 WARN ...