Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Welche Funktion im Funken wird verwendet, um zwei RDDs durch Schlüssel zu kombinieren

Sagen wir, ich habe die folgenden zwei RDDs mit den folgenden Schlüsselpaarwerten. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]un rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Nun möchte ich sie durch Schlüsselwerte ...

1 die antwort

Drucken der ClusterID und ihrer Elemente mit Spark KMeans algo.

Ich habe dieses Programm, das den MSSE of Kmeans-Algorithmus auf Apache-Spark ausgibt. Es werden 20 Cluster generiert. Ich versuche, die ClusterID und die Elemente zu drucken, die der jeweiligen ClusterID zugewiesen wurden. Wie durchlaufe ich die ...

4 die antwort

Apache Spark Kinesis Sample funktioniert nicht

Ich versuche das @ auszuführ JavaKinesisWordCountASL [https://github.com/apache/spark/blob/master/extras/kinesis-asl/src/main/java/org/apache/spark/examples/streaming/JavaKinesisWordCountASL.java] Beispiel. Das Beispiel scheint eine Verbindung ...

TOP-Veröffentlichungen

18 die antwort

Reduzieren Sie mit Apache Spark ein Schlüsselwertpaar in ein Schlüssellistenpaar

Ich schreibe eine Spark-Anwendung und möchte eine Reihe von Schlüssel-Wert-Paaren kombinieren(K, V1), (K, V2), ..., (K, Vn) in ein Schlüssel-Mehrwert-Paar(K, [V1, V2, ..., Vn]). Ich habe das Gefühl, ich sollte dies mit dem @ tun könnreduceByKey ...

2 die antwort

Was bedeutet "Lokalitätsstufe" im Spark-Cluster

Was bedeuten der Titel "Lokalitätsstufe" und die 5 Statusdaten lokal -> Prozess lokal -> Knoten lokal -> Rack lokal -> Beliebig?

2 die antwort

Filter RDD basierend auf row_number

sc.textFile (path) ermöglicht das Lesen einer HDFS-Datei, akzeptiert jedoch keine Parameter (wie das Überspringen einer Reihe von Zeilen, has_headers, ...). s wird empfohlen, im O'Reilly-E-Book "Learning Spark" die folgende Funktion zum Lesen ...

6 die antwort

Spark: Anzahl der Partitionen erhöhen, ohne ein Shuffle zu verursachen?

Wenn die Anzahl der Partitionen verringert wird, kann man @ verwendcoalesce, das ist großartig, weil es kein Shuffle verursacht und augenblicklich funktioniert (erfordert keine zusätzliche Jobphase). Ich möchte manchmal das Gegenteil tun, ...

8 die antwort

Wie erhalte ich eine SQL-Zeilennummer für eine Spark-RDD?

Ich muss eine vollständige Liste der Zeilennummern für eine Datentabelle mit vielen Spalten generieren. In SQL würde dies so aussehen: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, ...

6 die antwort

Wie wird die Initialisierung im Spark durchgeführt?

Ich möchte Geoip-Lookups meiner Daten in Spark durchführen. Dazu verwende ich die geoIP-Datenbank von MaxMind. Was ich tun möchte, ist, ein Geoip-Datenbankobjekt einmal auf jeder Partition zu initialisieren und es später zum Nachschlagen der ...

6 die antwort

Spark: So treten Sie RDDs nach Zeitspanne bei

Ich habe ein heikles Spark-Problem, bei dem ich den Kopf nicht hängen kann. Wir haben zwei RDDs (von Cassandra). RDD1 enthältActions und RDD2 enthältHistoric Daten. Beide haben eine ID, mit der sie abgeglichen / verbunden werden können. Das ...