Suchergebnisse für Anfrage "apache-spark"

4 die antwort

pyspark: NameError: Name 'spark' ist nicht definiert

Ich kopiere das Beispiel pyspark.ml von der offiziellen ...

6 die antwort

Wie erstelle ich SparkSession mit Hive-Unterstützung (schlägt fehl, wenn "Hive-Klassen nicht gefunden werden")?

Ich erhalte diese Fehlermeldung, wenn ich versuche, diesen Code auszuführen. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] ...

2 die antwort

Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?

Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...

TOP-Veröffentlichungen

2 die antwort

Fehler: nicht gefunden: Wert leuchtet / wenn - Funken scala

Ich benutze Scala, Spark, IntelliJ und Maven. Ich habe folgenden Code verwendet: val joinCondition = when($"exp.fnal_expr_dt" >= $"exp.nonfnal_expr_dt", $"exp.manr_cd"===$"score.MANR_CD") val score ...

8 die antwort

Wie wähle ich die letzte Zeile aus und wie greife ich über den Index auf PySpark-Datenrahmen zu?

Von einem PySpark SQL-Datenrahmen wie name age city abc 20 A def 30 BWie erhalte ich die letzte Zeile? (Wie bei df.limit (1) kann ich die erste Zeile des Datenrahmens in einen neuen Datenrahmen umwandeln). Und wie kann ich über den Index auf ...

10 die antwort

Spark DataFrame: behält groupBy nach orderBy diese Reihenfolge bei?

Ich habe einen Spark 2.0-Datenrahmenexample mit der folgenden Struktur: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc. Es enthält 24 Einträge für jede ID (einen für jede Stunde des Tages) und wird ...

4 die antwort

Work with Jupyter unter Windows und Apache Toree Kernel für Spark-Kompatibilität

Ich versuche, den Apache Toree-Kernel aus Gründen der Funkenkompatibilität zu installieren, und stoße auf eine seltsame Umgebungsnachricht. Dies ist der Prozess, dem ich gefolgt bin: Installiere die letzte Anaconda Version mit Jupyter 4.1.0Run: ...

2 die antwort

Spark: PySpark + Cassandra-Abfrageleistung

Ich habe Spark 2.0 und Cassandra 3.0 auf einem lokalen Computer (8 Kerne, 16 GB RAM) zu Testzwecken eingerichtet und bearbeitetspark-defaults.conf wie folgt spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...

2 die antwort

PySpark: StructField (…,…, False) gibt immer `nullable = true` anstelle von` nullable = false` zurück

Ich bin neu bei PySpark und stehe vor einem seltsamen Problem. Ich versuche, eine Spalte beim Laden eines CSV-Datasets auf nicht nullwertfähig zu setzen. Ich kann meinen Fall mit einem sehr kleinen Datensatz reproduzieren ...

4 die antwort

Spark 2.0 fehlende Funken impliziert

Mit Spark 2.0 sehe ich, dass es möglich ist, einen Datenrahmen von Zeilen in einen Datenrahmen von Fallklassen umzuwandeln. Wenn ich das versuche, werde ich mit einer Nachricht begrüßt, die besagt, dass ich @ importieren solspark.implicits._. ...