Suchergebnisse für Anfrage "rdd"
Wie werden verschachtelte Listen in PySpark reduziert?
Ich habe eine RDD-Struktur wie: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]und ich möchte, dass es wird: rdd = [1,2,3,4,5,6,7,8,9,10]Wie schreibe ich eine Map oder reduziere die Funktion, damit sie funktioniert?
Spark: Bewältigen Sie leistungsintensive Befehle wie collect (), groupByKey (), reductionByKey ()
Ich weiß, dass einige Funkenaktionen wiecollect() Leistungsprobleme verursachen. It wurde in @ zitieDokumentatio [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Um alle Elemente des Treibers auszudrucken, kann man ...
RDD aufteilen und Aggregation für neue RDDs durchführen
Ich habe eine RDD von(String,String,Int). Ich möchte es basierend auf den ersten beiden Zeichenfolgen reduzierenUnd dann basierend auf dem ersten String möchte ich den (String, Int) gruppieren und sortierenNach dem Sortieren muss ich sie in ...
Case Klassengleichheit in Apache Spark
Warum funktioniert die Mustererkennung in Spark nicht wie in Scala? Siehe folgendes Beispiel ... functionf() versucht, eine Musterübereinstimmung für eine Klasse durchzuführen, die in der Scala REPL funktioniert, in Spark jedoch fehlschlägt und ...
Spark: Unterschied der Semantik zwischen reduct und reductByKey
n der Dokumentation von Spark heißt es, dass die RDD-Methodereduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] erfordert eine assoziative UND kommutative Binärfunktion. Allerdings ist die ...
Was ist der Unterschied zwischen Spark DataSet und RDD
Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark-Datensätze zu verstehen. Gibt es bewährte Methoden für die Verwendung von RDDs und für die Verwendung von Datasets? n ...
So klassifizieren Sie Bilder mit Spark und Caffe
ch verwende Caffe, um Bilder zu klassifizieren. Kann ich MAC OS X, Pyhton, verwende Im Moment weiß ich, wie ich mit Caffe mit Spark Python eine Liste von Bildern klassifizieren kann, aber wenn ich es schneller machen möchte, möchte ich ...
Anzahl der Partitionen in RDD und Leistung in Spark
In Pyspark kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen vorhanden sein sollen: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Wie wirkt sich die Anzahl der Partitionen, die ich für die Partitionierung ...
Was ist ein Glom ?. Wie unterscheidet es sich von mapPartitions?
Ich bin auf das @ gestoßglom() -Methode auf RDD. Gemäß der Dokumentation Return ein RDD erstellt durch Zusammenführen aller Elemente in jeder Partition in ein Array Tutglom die Daten über die Partitionen mischen oder werden nur ...
Spark Accumulator-Wert wird von Task @ nicht geles
Ich initialisiere einen Akku final Accumulator<Integer> accum = sc.accumulator(0); Und dann, während ich mich in der Kartenfunktion befinde, versuche ich, den Akkumulator zu erhöhen und dann den Akkumulatorwert zum Einstellen einer Variablen zu ...