Suchergebnisse für Anfrage "apache-spark"
Welche Funktion im Funken wird verwendet, um zwei RDDs durch Schlüssel zu kombinieren
Sagen wir, ich habe die folgenden zwei RDDs mit den folgenden Schlüsselpaarwerten. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]un rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Nun möchte ich sie durch Schlüsselwerte ...
Drucken der ClusterID und ihrer Elemente mit Spark KMeans algo.
Ich habe dieses Programm, das den MSSE of Kmeans-Algorithmus auf Apache-Spark ausgibt. Es werden 20 Cluster generiert. Ich versuche, die ClusterID und die Elemente zu drucken, die der jeweiligen ClusterID zugewiesen wurden. Wie durchlaufe ich die ...
Apache Spark Kinesis Sample funktioniert nicht
Ich versuche das @ auszuführ JavaKinesisWordCountASL [https://github.com/apache/spark/blob/master/extras/kinesis-asl/src/main/java/org/apache/spark/examples/streaming/JavaKinesisWordCountASL.java] Beispiel. Das Beispiel scheint eine Verbindung ...
Reduzieren Sie mit Apache Spark ein Schlüsselwertpaar in ein Schlüssellistenpaar
Ich schreibe eine Spark-Anwendung und möchte eine Reihe von Schlüssel-Wert-Paaren kombinieren(K, V1), (K, V2), ..., (K, Vn) in ein Schlüssel-Mehrwert-Paar(K, [V1, V2, ..., Vn]). Ich habe das Gefühl, ich sollte dies mit dem @ tun könnreduceByKey ...
Was bedeutet "Lokalitätsstufe" im Spark-Cluster
Was bedeuten der Titel "Lokalitätsstufe" und die 5 Statusdaten lokal -> Prozess lokal -> Knoten lokal -> Rack lokal -> Beliebig?
Filter RDD basierend auf row_number
sc.textFile (path) ermöglicht das Lesen einer HDFS-Datei, akzeptiert jedoch keine Parameter (wie das Überspringen einer Reihe von Zeilen, has_headers, ...). s wird empfohlen, im O'Reilly-E-Book "Learning Spark" die folgende Funktion zum Lesen ...
Spark: Anzahl der Partitionen erhöhen, ohne ein Shuffle zu verursachen?
Wenn die Anzahl der Partitionen verringert wird, kann man @ verwendcoalesce, das ist großartig, weil es kein Shuffle verursacht und augenblicklich funktioniert (erfordert keine zusätzliche Jobphase). Ich möchte manchmal das Gegenteil tun, ...
Wie erhalte ich eine SQL-Zeilennummer für eine Spark-RDD?
Ich muss eine vollständige Liste der Zeilennummern für eine Datentabelle mit vielen Spalten generieren. In SQL würde dies so aussehen: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, ...
Wie wird die Initialisierung im Spark durchgeführt?
Ich möchte Geoip-Lookups meiner Daten in Spark durchführen. Dazu verwende ich die geoIP-Datenbank von MaxMind. Was ich tun möchte, ist, ein Geoip-Datenbankobjekt einmal auf jeder Partition zu initialisieren und es später zum Nachschlagen der ...
Spark: So treten Sie RDDs nach Zeitspanne bei
Ich habe ein heikles Spark-Problem, bei dem ich den Kopf nicht hängen kann. Wir haben zwei RDDs (von Cassandra). RDD1 enthältActions und RDD2 enthältHistoric Daten. Beide haben eine ID, mit der sie abgeglichen / verbunden werden können. Das ...