Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie kann ein RDD mit DenseVector als Schlüssel in Spark gruppiert werden?

Ich habe eine RDD erstellt, wobei jedes Mitglied ein Schlüsselwertpaar ist und der Schlüssel ein @ isDenseVector und Wert ist einint. z.B [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]etzt möchte ich nach dem Schlüssel gruppierk1: ...

2 die antwort

Wie kann PySpark im Debug-Modus aufgerufen werden?

Ich habe IntelliJ IDEA mit Apache Spark 1.4 eingerichtet. Ich möchte in der Lage sein, meinen Spark Python-Skripten Debug-Punkte hinzuzufügen, damit ich sie leicht debuggen kann. Ich starte gerade dieses Python-Bit, um den Funkenprozess zu ...

4 die antwort

Warum funktioniert Spark-Broadcast nicht gut, wenn ich die App "Erweitert" verwende?

Der erste Code löst eine Nullzeigerausnahme aus. object TryBroadcast extends App{ val conf = new SparkConf().setAppName("o_o") val sc = new SparkContext(conf) val sample = sc.parallelize(1 to 1024) val bro = sc.broadcast(6666) val broSample = ...

TOP-Veröffentlichungen

2 die antwort

Gibt es eine RDD-Transformationsfunktion, die benachbarte Elemente betrachtet?

Weiß jemand, ob es während einer Transformation eine Möglichkeit gibt, benachbarte Elemente in einer sortierten RDD zu betrachten? Ich weiß, dass ich eine solche Operation wie die im folgenden Beispiel sammeln und dann ausführen kann, sie jedoch ...

2 die antwort

Fehlgeschlagener Integrationstest für Apache Spark Streaming

Ich habe versucht, ein Problem mit einigen Unit- / Integrationstests aufzuspüren, die ich für ein Apache Spark-Projekt geschrieben habe. Wenn ich Spark 1.1.1 verwende, ist mein Test bestanden. Beim Versuch, ein Upgrade auf 1.4.0 (auch 1.4.1) ...

2 die antwort

Verwendung der spark DataFrame "as" -Methode

Ich suche nach spark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] Dokumentation. Es gib def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Was ist ...

6 die antwort

Spark-Iterationszeit nimmt bei Verwendung von join @ exponentiell

Ich bin ein Neuling in Spark und versuche, einen iterativen Algorithmus für das Clustering (Erwartungsmaximierung) mit dem durch das Markov-Modell dargestellten Schwerpunkt zu implementieren. Ich muss also Iterationen und Joins durchführen. Ein ...

4 die antwort

Lazy foreach auf einem Spark RDD

Ich habe eine große RDD von Strings (erhalten durch eine Vereinigung von mehrerensc.textFile(...)). Ich möchte jetzt nach einer bestimmten Zeichenfolge in dieser RDD suchen und die Suche stoppen, wenn eine "gut genug" Übereinstimmung gefunden ...

4 die antwort

Mischen Sie zwei RDDs in Spark Scala

Ich habe zwei RDDs. rdd1 = (String, String) key1, value11 key2, value12 key3, value13 rdd2 = (String, String) key2, value22 key3, value23 key4, value24Ich muss eine andere RDD mit zusammengeführten Zeilen aus rdd1 und rdd2 bilden, die Ausgabe ...

2 die antwort

pyspark Untermenge von Dateien mit Regex / Glob von s3 auswählen

Ich habe eine Reihe von Dateien, die jeweils nach Datum getrennt sind(date=yyyymmdd) auf Amazon S3. Die Dateien reichen 6 Monate zurück, aber ich möchte mein Skript so einschränken, dass nur die Daten der letzten 3 Monate verwendet werden. Ich ...