Suchergebnisse für Anfrage "apache-spark"
pyspark: NameError: Name 'spark' ist nicht definiert
Ich kopiere das Beispiel pyspark.ml von der offiziellen ...
Wie erstelle ich SparkSession mit Hive-Unterstützung (schlägt fehl, wenn "Hive-Klassen nicht gefunden werden")?
Ich erhalte diese Fehlermeldung, wenn ich versuche, diesen Code auszuführen. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] ...
Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?
Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...
Fehler: nicht gefunden: Wert leuchtet / wenn - Funken scala
Ich benutze Scala, Spark, IntelliJ und Maven. Ich habe folgenden Code verwendet: val joinCondition = when($"exp.fnal_expr_dt" >= $"exp.nonfnal_expr_dt", $"exp.manr_cd"===$"score.MANR_CD") val score ...
Wie wähle ich die letzte Zeile aus und wie greife ich über den Index auf PySpark-Datenrahmen zu?
Von einem PySpark SQL-Datenrahmen wie name age city abc 20 A def 30 BWie erhalte ich die letzte Zeile? (Wie bei df.limit (1) kann ich die erste Zeile des Datenrahmens in einen neuen Datenrahmen umwandeln). Und wie kann ich über den Index auf ...
Spark DataFrame: behält groupBy nach orderBy diese Reihenfolge bei?
Ich habe einen Spark 2.0-Datenrahmenexample mit der folgenden Struktur: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc. Es enthält 24 Einträge für jede ID (einen für jede Stunde des Tages) und wird ...
Work with Jupyter unter Windows und Apache Toree Kernel für Spark-Kompatibilität
Ich versuche, den Apache Toree-Kernel aus Gründen der Funkenkompatibilität zu installieren, und stoße auf eine seltsame Umgebungsnachricht. Dies ist der Prozess, dem ich gefolgt bin: Installiere die letzte Anaconda Version mit Jupyter 4.1.0Run: ...
Spark: PySpark + Cassandra-Abfrageleistung
Ich habe Spark 2.0 und Cassandra 3.0 auf einem lokalen Computer (8 Kerne, 16 GB RAM) zu Testzwecken eingerichtet und bearbeitetspark-defaults.conf wie folgt spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...
PySpark: StructField (…,…, False) gibt immer `nullable = true` anstelle von` nullable = false` zurück
Ich bin neu bei PySpark und stehe vor einem seltsamen Problem. Ich versuche, eine Spalte beim Laden eines CSV-Datasets auf nicht nullwertfähig zu setzen. Ich kann meinen Fall mit einem sehr kleinen Datensatz reproduzieren ...
Spark 2.0 fehlende Funken impliziert
Mit Spark 2.0 sehe ich, dass es möglich ist, einen Datenrahmen von Zeilen in einen Datenrahmen von Fallklassen umzuwandeln. Wenn ich das versuche, werde ich mit einer Nachricht begrüßt, die besagt, dass ich @ importieren solspark.implicits._. ...