Suchergebnisse für Anfrage "rdd"

2 die antwort

Warum erlaubt Spark keine kartenseitige Kombination mit Array-Schlüsseln?

Ich verwende Spark 1.3.1 und bin gespannt, warum Spark die Verwendung von Array-Schlüsseln bei der Map-Side-Kombination nicht zulässt. Stück voncombineByKey function: if (keyClass.isArray) { if (mapSideCombine) { throw new ...

2 die antwort

'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark

Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...

8 die antwort

Wie teile ich eine RDD in zwei oder mehr RDDs auf?

Ich suche nach einer Möglichkeit, eine RDD in zwei oder mehr RDDs aufzuteilen. Das nächste, das ich gesehen habe, istScala Spark: Sammlung in mehrere ...

TOP-Veröffentlichungen

6 die antwort

Konvertieren von RDD [org.apache.spark.sql.Row] in RDD [org.apache.spark.mllib.linalg.Vector]

Ich bin relativ neu bei Spark und Scala. Ich beginne mit dem folgenden Datenrahmen (einzelne Spalte aus einem dichten Doppelvektor): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

6 die antwort

Partition RDD in Tupel der Länge n

Ich bin relativ neu bei Apache Spark und Python und habe mich gefragt, ob so etwas wie das, was ich beschreiben werde, machbar ist. Ich habe eine RDD der Form [m1, m2, m3, m4, m5, m6 ....... mn] (Sie erhalten dies, wenn Sie rdd.collect () ...

2 die antwort

Leere Partitionen aus Spark RDD entfernen

Ich rufe Daten von HDFS ab und speichere sie in einem Spark-RDD. Spark erstellt die Anzahl der Partitionen basierend auf der Anzahl der HDFS-Blöcke. Dies führt zu einer großen Anzahl leerer Partitionen, die auch während der ...

6 die antwort

Ist groupByKey jemals dem reduByKey @ vorgezog

Ich benutze immerreduceByKey, wenn ich Daten in RDDs gruppieren muss, weil sie vor dem Mischen von Daten kartenseitig verkleinert werden. Dies bedeutet häufig, dass weniger Daten gemischt werden und dadurch eine bessere Leistung erzielt wird. ...

12 die antwort

Eine RDD initialisieren, um @ zu leer

Ich habe ein RDD namens JavaPairRDD<String, List<String>> existingRDD; Jetzt muss ich dieses @ initialisierexistingRDD zu leeren, so dass ich eine Union mit diesem @ machen kann, wenn ich die tatsächlichen Rdd's bekomexistingRDD. Wie ...

2 die antwort

Matrix-Multiplikation in Apache Spark [geschlossen]

ch versuche, eine Matrixmultiplikation mit Apache Spark und Java durchzuführe Ich habe 2 Hauptfragen: Wie erstelle ich ein RDD, das eine Matrix in Apache Spark darstellen kann?Wie multipliziere ich zwei solche RDDs?

4 die antwort

Spark Vereinigung mehrerer RDDs

In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...