Spark: Unterschied der Semantik zwischen reduct und reductByKey

Question

Feb 04, 2016, 04:34 PM

Spark: Unterschied der Semantik zwischen reduct und reductByKey

n der Dokumentation von Spark heißt es, dass die RDD-Methodereduce erfordert eine assoziative UND kommutative Binärfunktion.

Allerdings ist die MethodereduceByKey Benötigt NUR eine assoziative Binärfunktion.

sc.textFile("file4kB", 4)

Ich habe einige Tests gemacht und anscheinend ist es das Verhalten, das ich bekomme. Warum dieser Unterschied? Warum tutreduceByKey sicherstellen, dass die Binärfunktion immer in einer bestimmten Reihenfolge angewendet wird (um die fehlende Kommutativität auszugleichen), wennreduce nicht

Beispiel, wenn Sie einen (kleinen) Text mit mindestens 4 Partitionen laden:

val r = sc.textFile("file4k", 4)

dann

r.reduce(_ + _)

returns eine Zeichenfolge, in der Teile nicht immer in derselben Reihenfolge sind, wohingegen:

r.map(x => (1,x)).reduceByKey(_ + _).first

gibt immer den gleichen String zurück (wobei sich alles in der gleichen Reihenfolge befindet wie in der Originaldatei).

(Ich habe mit @ gecheckr.glom und der Dateiinhalt ist in der Tat auf 4 Partitionen verteilt (es gibt keine leere Partition).

Antworten auf die Frage(4)

Top Fragen

0 die antwort

Virtuelles Verzeichnis innerhalb der ASP.NET Core-App in IIS

0 die antwort

Jenkins Sonarprüfungsfehler: Auslöser: java.lang.ClassNotFoundException: org.sonar.api.checks.NoSonarFilter

0 die antwort

IndexedDB: Element mit maximalem Wert abrufen

0 die antwort

jQuery - Url.Action LOCAL-Computerpfadproblem

0 die antwort

Welche Ausnahmen können nicht behandelt werden? [Duplikat]

Du bist sehr aktiv! Es ist großartig!

Spark: Unterschied der Semantik zwischen reduct und reductByKey

Antworten auf die Frage(4)

Ihre Antwort auf die Frage

Top Fragen