Suchergebnisse für Anfrage "rdd"

2 die antwort

Wie werden verschachtelte Listen in PySpark reduziert?

Ich habe eine RDD-Struktur wie: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]und ich möchte, dass es wird: rdd = [1,2,3,4,5,6,7,8,9,10]Wie schreibe ich eine Map oder reduziere die Funktion, damit sie funktioniert?

2 die antwort

Spark: Bewältigen Sie leistungsintensive Befehle wie collect (), groupByKey (), reductionByKey ()

Ich weiß, dass einige Funkenaktionen wiecollect() Leistungsprobleme verursachen. It wurde in @ zitieDokumentatio [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Um alle Elemente des Treibers auszudrucken, kann man ...

2 die antwort

RDD aufteilen und Aggregation für neue RDDs durchführen

Ich habe eine RDD von(String,String,Int). Ich möchte es basierend auf den ersten beiden Zeichenfolgen reduzierenUnd dann basierend auf dem ersten String möchte ich den (String, Int) gruppieren und sortierenNach dem Sortieren muss ich sie in ...

TOP-Veröffentlichungen

2 die antwort

Case Klassengleichheit in Apache Spark

Warum funktioniert die Mustererkennung in Spark nicht wie in Scala? Siehe folgendes Beispiel ... functionf() versucht, eine Musterübereinstimmung für eine Klasse durchzuführen, die in der Scala REPL funktioniert, in Spark jedoch fehlschlägt und ...

4 die antwort

Spark: Unterschied der Semantik zwischen reduct und reductByKey

n der Dokumentation von Spark heißt es, dass die RDD-Methodereduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] erfordert eine assoziative UND kommutative Binärfunktion. Allerdings ist die ...

2 die antwort

Was ist der Unterschied zwischen Spark DataSet und RDD

Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark-Datensätze zu verstehen. Gibt es bewährte Methoden für die Verwendung von RDDs und für die Verwendung von Datasets? n ...

2 die antwort

So klassifizieren Sie Bilder mit Spark und Caffe

ch verwende Caffe, um Bilder zu klassifizieren. Kann ich MAC OS X, Pyhton, verwende Im Moment weiß ich, wie ich mit Caffe mit Spark Python eine Liste von Bildern klassifizieren kann, aber wenn ich es schneller machen möchte, möchte ich ...

4 die antwort

Anzahl der Partitionen in RDD und Leistung in Spark

In Pyspark kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen vorhanden sein sollen: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Wie wirkt sich die Anzahl der Partitionen, die ich für die Partitionierung ...

2 die antwort

Was ist ein Glom ?. Wie unterscheidet es sich von mapPartitions?

Ich bin auf das @ gestoßglom() -Methode auf RDD. Gemäß der Dokumentation Return ein RDD erstellt durch Zusammenführen aller Elemente in jeder Partition in ein Array Tutglom die Daten über die Partitionen mischen oder werden nur ...

2 die antwort

Spark Accumulator-Wert wird von Task @ nicht geles

Ich initialisiere einen Akku final Accumulator<Integer> accum = sc.accumulator(0); Und dann, während ich mich in der Kartenfunktion befinde, versuche ich, den Akkumulator zu erhöhen und dann den Akkumulatorwert zum Einstellen einer Variablen zu ...