Suchergebnisse für Anfrage "rdd"

Ich verwende Spark 1.3.1 und bin gespannt, warum Spark die Verwendung von Array-Schlüsseln bei der Map-Side-Kombination nicht zulässt. Stück voncombineByKey function: if (keyClass.isArray) { if (mapSideCombine) { throw new ...

apache-spark apache-spark-sql pyspark python

2 die antwort

'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark

Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...

pyspark apache-spark

8 die antwort

Wie teile ich eine RDD in zwei oder mehr RDDs auf?

Ich suche nach einer Möglichkeit, eine RDD in zwei oder mehr RDDs aufzuteilen. Das nächste, das ich gesehen habe, istScala Spark: Sammlung in mehrere ...

Beliebte Schlagwörter

navigator jint setinterval upsert framebuffer booksleeve splat metal azure wifi-direct xdebug ropensci visualsvn-server multibyte llvm django-admin traversal cflags udpclient android-notifications

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

scala apache-spark spark-dataframe apache-spark-mllib

6 die antwort

Konvertieren von RDD [org.apache.spark.sql.Row] in RDD [org.apache.spark.mllib.linalg.Vector]

Ich bin relativ neu bei Spark und Scala. Ich beginne mit dem folgenden Datenrahmen (einzelne Spalte aus einem dichten Doppelvektor): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

pyspark apache-spark python

6 die antwort

Partition RDD in Tupel der Länge n

Ich bin relativ neu bei Apache Spark und Python und habe mich gefragt, ob so etwas wie das, was ich beschreiben werde, machbar ist. Ich habe eine RDD der Form [m1, m2, m3, m4, m5, m6 ....... mn] (Sie erhalten dies, wenn Sie rdd.collect () ...

apache-spark hadoop pyspark

2 die antwort

Leere Partitionen aus Spark RDD entfernen

Ich rufe Daten von HDFS ab und speichere sie in einem Spark-RDD. Spark erstellt die Anzahl der Partitionen basierend auf der Anzahl der HDFS-Blöcke. Dies führt zu einer großen Anzahl leerer Partitionen, die auch während der ...

apache-spark

6 die antwort

Ist groupByKey jemals dem reduByKey @ vorgezog

Ich benutze immerreduceByKey, wenn ich Daten in RDDs gruppieren muss, weil sie vor dem Mischen von Daten kartenseitig verkleinert werden. Dies bedeutet häufig, dass weniger Daten gemischt werden und dadurch eine bessere Leistung erzielt wird. ...

apache-spark java

12 die antwort

Eine RDD initialisieren, um @ zu leer

Ich habe ein RDD namens JavaPairRDD<String, List<String>> existingRDD; Jetzt muss ich dieses @ initialisierexistingRDD zu leeren, so dass ich eine Union mit diesem @ machen kann, wenn ich die tatsächlichen Rdd's bekomexistingRDD. Wie ...

apache-spark java apache-spark-mllib scala

2 die antwort

Matrix-Multiplikation in Apache Spark [geschlossen]

ch versuche, eine Matrixmultiplikation mit Apache Spark und Java durchzuführe Ich habe 2 Hauptfragen: Wie erstelle ich ein RDD, das eine Matrix in Apache Spark darstellen kann?Wie multipliziere ich zwei solche RDDs?

apache-spark python pyspark

4 die antwort

Spark Vereinigung mehrerer RDDs

In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...

Seite 6 von 10

4 567 8

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen