Suchergebnisse für Anfrage "apache-spark"
Wie kann ein RDD mit DenseVector als Schlüssel in Spark gruppiert werden?
Ich habe eine RDD erstellt, wobei jedes Mitglied ein Schlüsselwertpaar ist und der Schlüssel ein @ isDenseVector und Wert ist einint. z.B [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]etzt möchte ich nach dem Schlüssel gruppierk1: ...
Wie kann PySpark im Debug-Modus aufgerufen werden?
Ich habe IntelliJ IDEA mit Apache Spark 1.4 eingerichtet. Ich möchte in der Lage sein, meinen Spark Python-Skripten Debug-Punkte hinzuzufügen, damit ich sie leicht debuggen kann. Ich starte gerade dieses Python-Bit, um den Funkenprozess zu ...
Warum funktioniert Spark-Broadcast nicht gut, wenn ich die App "Erweitert" verwende?
Der erste Code löst eine Nullzeigerausnahme aus. object TryBroadcast extends App{ val conf = new SparkConf().setAppName("o_o") val sc = new SparkContext(conf) val sample = sc.parallelize(1 to 1024) val bro = sc.broadcast(6666) val broSample = ...
Gibt es eine RDD-Transformationsfunktion, die benachbarte Elemente betrachtet?
Weiß jemand, ob es während einer Transformation eine Möglichkeit gibt, benachbarte Elemente in einer sortierten RDD zu betrachten? Ich weiß, dass ich eine solche Operation wie die im folgenden Beispiel sammeln und dann ausführen kann, sie jedoch ...
Fehlgeschlagener Integrationstest für Apache Spark Streaming
Ich habe versucht, ein Problem mit einigen Unit- / Integrationstests aufzuspüren, die ich für ein Apache Spark-Projekt geschrieben habe. Wenn ich Spark 1.1.1 verwende, ist mein Test bestanden. Beim Versuch, ein Upgrade auf 1.4.0 (auch 1.4.1) ...
Verwendung der spark DataFrame "as" -Methode
Ich suche nach spark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] Dokumentation. Es gib def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Was ist ...
Spark-Iterationszeit nimmt bei Verwendung von join @ exponentiell
Ich bin ein Neuling in Spark und versuche, einen iterativen Algorithmus für das Clustering (Erwartungsmaximierung) mit dem durch das Markov-Modell dargestellten Schwerpunkt zu implementieren. Ich muss also Iterationen und Joins durchführen. Ein ...
Lazy foreach auf einem Spark RDD
Ich habe eine große RDD von Strings (erhalten durch eine Vereinigung von mehrerensc.textFile(...)). Ich möchte jetzt nach einer bestimmten Zeichenfolge in dieser RDD suchen und die Suche stoppen, wenn eine "gut genug" Übereinstimmung gefunden ...
Mischen Sie zwei RDDs in Spark Scala
Ich habe zwei RDDs. rdd1 = (String, String) key1, value11 key2, value12 key3, value13 rdd2 = (String, String) key2, value22 key3, value23 key4, value24Ich muss eine andere RDD mit zusammengeführten Zeilen aus rdd1 und rdd2 bilden, die Ausgabe ...
pyspark Untermenge von Dateien mit Regex / Glob von s3 auswählen
Ich habe eine Reihe von Dateien, die jeweils nach Datum getrennt sind(date=yyyymmdd) auf Amazon S3. Die Dateien reichen 6 Monate zurück, aber ich möchte mein Skript so einschränken, dass nur die Daten der letzten 3 Monate verwendet werden. Ich ...