Suchergebnisse für Anfrage "rdd"

18 die antwort

Reduzieren Sie mit Apache Spark ein Schlüsselwertpaar in ein Schlüssellistenpaar

Ich schreibe eine Spark-Anwendung und möchte eine Reihe von Schlüssel-Wert-Paaren kombinieren(K, V1), (K, V2), ..., (K, Vn) in ein Schlüssel-Mehrwert-Paar(K, [V1, V2, ..., Vn]). Ich habe das Gefühl, ich sollte dies mit dem @ tun könnreduceByKey ...

8 die antwort

Wie erhalte ich eine SQL-Zeilennummer für eine Spark-RDD?

Ich muss eine vollständige Liste der Zeilennummern für eine Datentabelle mit vielen Spalten generieren. In SQL würde dies so aussehen: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, ...

6 die antwort

Spark: So treten Sie RDDs nach Zeitspanne bei

Ich habe ein heikles Spark-Problem, bei dem ich den Kopf nicht hängen kann. Wir haben zwei RDDs (von Cassandra). RDD1 enthältActions und RDD2 enthältHistoric Daten. Beide haben eine ID, mit der sie abgeglichen / verbunden werden können. Das ...

TOP-Veröffentlichungen

6 die antwort

Wie teilt man Spark RDD zwischen 2 Spark-Kontexten?

Ich habe einen RMI-Cluster. Jeder RMI-Server verfügt über einen Spark-Kontext. Gibt es eine Möglichkeit, eine RDD für verschiedene Spark-Kontexte freizugeben?

14 die antwort

Erläutern Sie die Aggregatfunktionalität in Spark

Ich suche nach einer besseren Erklärung für die Aggregatfunktionalität, die über spark in python verfügbar ist. Das Beispiel, das ich habe, ist wie folgt (mit Pyspark ab Version Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda ...

20 die antwort

So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark

Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...

6 die antwort

Spark: Subtrahiere zwei DataFrames

In Spark-Version 1.2.0 könnte mansubtract mit 2SchemRDDs, um nur den Inhalt des ersten zu erhalten val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData enthält die Zeilen intodaySchemRDD das gibt es nicht ...

2 die antwort

Serializing RDD

Ich habe eine RDD, die ich zu serialisieren und dann durch Deserialisieren zu rekonstruieren versuche. Ich versuche zu sehen, ob dies in Apache Spark möglich ist. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance ...

4 die antwort

Ist es möglich, verschachtelte RDDs in Apache Spark zu erstellen?

Ich versuche, einen K-Nearest-Neighbour-Algorithmus in Spark zu implementieren. Ich habe mich gefragt, ob es möglich ist, mit verschachtelten RDDs zu arbeiten. Dies wird mein Leben viel einfacher machen. Betrachten Sie das ...

2 die antwort

wie man RDD.treeAggregate interpretiert

Ich bin ... über den Weg gelaufendiese Lini [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] in der Apache ...