Suchergebnisse für Anfrage "apache-spark-sql"
pyspark: DataFrame in RDD konvertieren [string]
Ich würde gerne konvertierenpyspark.sql.dataframe.DataFrame zupyspark.rdd.RDD[String] Ich habe einen DataFrame konvertiertdf zu RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDdie neue RDDdata enthältRow first = data.first() type(first) ...
SPARK SQL - MySql-Tabelle mit DataFrames und JDBC aktualisieren
Ich versuche, mit Spark SQL DataFrames und JDBC-Verbindung einige Daten in MySql einzufügen und zu aktualisieren. Es ist mir gelungen, mit dem SaveMode.Append neue Daten einzufügen. Gibt es eine Möglichkeit, die in MySql Table bereits ...
Wie ein Spark-Datenrahmen zwischengespeichert und in einem anderen Skript referenziert wird
Ist es möglich, einen Datenrahmen zwischenzuspeichern und ihn dann in einem anderen Skript zu referenzieren (abzufragen)? ... Mein Ziel lautet: Erstellen Sie in Skript 1 einen Datenrahmen (df) Skript 1 ausführen und df @ zwischenspeicheragen Sie ...
erwenden Sie collect_list und collect_set in Spark SQ
Laut dem docs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , dascollect_set undcollect_list -Funktionen sollten in Spark SQL verfügbar sein. Ich kann es jedoch nicht zum Laufen bringen. Ich verwende ...
Wie füge ich Spark DataFrame eine persistente Spalte mit Zeilen-IDs hinzu?
Diese Frage ist nicht neu, aber ich finde überraschendes Verhalten in Spark. Ich muss einem DataFrame eine Spalte mit Zeilen-IDs hinzufügen. Ich habe die DataFrame-Methode monotonically_increasing_id () verwendet, und es gibt mir eine zusätzliche ...
So schließen Sie mehrere Spalten in Spark-Datenrahmen in Python aus
Ich habe festgestellt, dass PySpark eine Methode namens @ hadrop aber es scheint, dass es nur eine Spalte auf einmal fallen lassen kann. Irgendwelche Ideen, wie Sie mehrere Spalten gleichzeitig löschen können? df.drop(['col1','col2']) TypeError ...
Filter Spark DataFrame für String enthält
Ich benutzeSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html] undSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Ich arbeite vondas Beispiel ...
Wie transponiere ich Datenrahmen in Spark 1.5 (kein Pivot-Operator verfügbar)?
Ich möchte folgende Tabelle mit Spark-Scala ohne Pivot-Funktion transponieren Ich verwende Spark 1.5.1 und die Pivot-Funktion wird in 1.5.1 nicht unterstützt. Bitte schlagen Sie eine geeignete Methode zur Umsetzung der folgenden Tabelle ...
Verwenden von Fensterfunktionen in Spark
Ich versuche, rowNumber in Spark-Datenrahmen zu verwenden. Meine Abfragen funktionieren erwartungsgemäß in der Spark-Shell. Aber wenn ich sie in Eclipse ausschreibe und ein Glas kompiliere, stoße ich auf einen Fehler 16/03/23 05:52:43 ERROR ...
Apache Spark on Mesos: Anfänglicher Job hat keine Ressourcen akzeptiert
Ich führe Apache Spark im Cluster-Modus mit Apache Mesos aus. Wenn ich jedoch Spark-Shell starte, um einen einfachen Testbefehl (sc.parallelize (0 bis 10, 8) .count) auszuführen, wird die folgende Warnmeldung angezeigt: 16/03/10 11:50:55 WARN ...