Suchergebnisse für Anfrage "rdd"
Reduzieren Sie mit Apache Spark ein Schlüsselwertpaar in ein Schlüssellistenpaar
Ich schreibe eine Spark-Anwendung und möchte eine Reihe von Schlüssel-Wert-Paaren kombinieren(K, V1), (K, V2), ..., (K, Vn) in ein Schlüssel-Mehrwert-Paar(K, [V1, V2, ..., Vn]). Ich habe das Gefühl, ich sollte dies mit dem @ tun könnreduceByKey ...
Wie erhalte ich eine SQL-Zeilennummer für eine Spark-RDD?
Ich muss eine vollständige Liste der Zeilennummern für eine Datentabelle mit vielen Spalten generieren. In SQL würde dies so aussehen: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, ...
Spark: So treten Sie RDDs nach Zeitspanne bei
Ich habe ein heikles Spark-Problem, bei dem ich den Kopf nicht hängen kann. Wir haben zwei RDDs (von Cassandra). RDD1 enthältActions und RDD2 enthältHistoric Daten. Beide haben eine ID, mit der sie abgeglichen / verbunden werden können. Das ...
Wie teilt man Spark RDD zwischen 2 Spark-Kontexten?
Ich habe einen RMI-Cluster. Jeder RMI-Server verfügt über einen Spark-Kontext. Gibt es eine Möglichkeit, eine RDD für verschiedene Spark-Kontexte freizugeben?
Erläutern Sie die Aggregatfunktionalität in Spark
Ich suche nach einer besseren Erklärung für die Aggregatfunktionalität, die über spark in python verfügbar ist. Das Beispiel, das ich habe, ist wie folgt (mit Pyspark ab Version Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda ...
So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark
Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...
Spark: Subtrahiere zwei DataFrames
In Spark-Version 1.2.0 könnte mansubtract mit 2SchemRDDs, um nur den Inhalt des ersten zu erhalten val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData enthält die Zeilen intodaySchemRDD das gibt es nicht ...
Serializing RDD
Ich habe eine RDD, die ich zu serialisieren und dann durch Deserialisieren zu rekonstruieren versuche. Ich versuche zu sehen, ob dies in Apache Spark möglich ist. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance ...
Ist es möglich, verschachtelte RDDs in Apache Spark zu erstellen?
Ich versuche, einen K-Nearest-Neighbour-Algorithmus in Spark zu implementieren. Ich habe mich gefragt, ob es möglich ist, mit verschachtelten RDDs zu arbeiten. Dies wird mein Leben viel einfacher machen. Betrachten Sie das ...
wie man RDD.treeAggregate interpretiert
Ich bin ... über den Weg gelaufendiese Lini [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] in der Apache ...