Suchergebnisse für Anfrage "apache-spark"
Spark Streaming mapWithState scheint in regelmäßigen Abständen den vollständigen Zustand wiederherzustellen
Ich arbeite an einem Scala (2.11) / Spark (1.6.1) -Streaming-Projekt und benutzemapWithState(), um die angezeigten Daten früherer Stapel zu verfolgen. Der Status ist in 20 Partitionen auf mehrere Knoten verteilt, die mit @ erstellt ...
SQLContext impliziert
Ich lerne Funken und Scala. Ich kenne mich gut mit Java aus, aber nicht so gut mit Scala. Ich habe ein Tutorial zum Thema Funken durchgearbeitet und bin auf die folgende Codezeile gestoßen, die noch nicht erklärt wurde: val sqlContext = new ...
Warum erhalte ich bei der Funktion date_format () PySpark keine Ergebnisse?
Angenommen, es gibt einen Datumsrahmen mit einer Spalte, die Datumsangaben als Zeichenfolgen enthält. Für diese Annahme erstellen wir den folgenden DataFrame als Beispiel: # Importing sql types from pyspark.sql.types import StringType, ...
Wie filtere ich basierend auf dem Array-Wert in PySpark?
Mein Schema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...
Verwenden von Fensterfunktionen in Spark
Ich versuche, rowNumber in Spark-Datenrahmen zu verwenden. Meine Abfragen funktionieren erwartungsgemäß in der Spark-Shell. Aber wenn ich sie in Eclipse ausschreibe und ein Glas kompiliere, stoße ich auf einen Fehler 16/03/23 05:52:43 ERROR ...
Apache Spark on Mesos: Anfänglicher Job hat keine Ressourcen akzeptiert
Ich führe Apache Spark im Cluster-Modus mit Apache Mesos aus. Wenn ich jedoch Spark-Shell starte, um einen einfachen Testbefehl (sc.parallelize (0 bis 10, 8) .count) auszuführen, wird die folgende Warnmeldung angezeigt: 16/03/10 11:50:55 WARN ...
Histogramm mit Spark-DataFrame-Spalte erstellen
Ich versuche, ein Histogramm mit einer Spalte aus einem Datenrahmen zu erstellen, der wie folgt aussieht: DataFrame[C0: int, C1: int, ...]Wenn ich ein Histogramm mit der Spalte C1 erstellen würde, was soll ich tun? inige Dinge, die ich ...
Apache Spark Exception im Thread "main" java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class
Scala-Version: 2.11.7 (musste die Scala-Version aktualisieren, damit case clasess mehr als 22 Parameter akzeptieren konnte.) Spark-Version: 1.6.1 PFB pom.xml Getting unter Fehler beim Versuch, Funken auf intellij IDE einzurichten, 16/03/16 ...
Spark Accumulator-Wert wird von Task @ nicht geles
Ich initialisiere einen Akku final Accumulator<Integer> accum = sc.accumulator(0); Und dann, während ich mich in der Kartenfunktion befinde, versuche ich, den Akkumulator zu erhöhen und dann den Akkumulatorwert zum Einstellen einer Variablen zu ...
Hinzufügen einer Spalte zu PySpark DataFrame, je nachdem, ob sich der Spaltenwert in einer anderen Spalte befindet
Ich habe einen PySpark DataFrame mit der von @ angegebenen Struktu [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Ich muss eine weitere Spalte mit 1 oder 0 hinzufügen, je nachdem, ob sich 'item' in 'fav_items' ...