pyspark und reduByKey: wie man eine einfache Summe macht

Ich versuche einen Code in Spark (Pyspark) für eine Aufgabe. Zum ersten Mal benutze ich diese Umgebung, also vermisse ich mit Sicherheit etwas…

Ich habe einen einfachen Datensatz namens c_views.

enn ich lauc_views.collect()

Ich bekomm
[…] (u'ABC', 100), (u'DEF', 200), (u'XXX', 50), (u'XXX', 70)] […]

as ich erreichen muss, ist dassum über alle Wörter. Also meine Vermutung ist, dass ich so etwas bekommen sollte:

(u'ABC', 100), (u'DEF', 200), (u'XXX', 120)

Also, was ich versuche zu tun, ist (unter Beachtung der Hinweise in der Zuordnung):

zuerst definiere ich die Funktionsum_views(a,b) für den Eingabedatensatz, und führen Sie dann einen reduByKey aus, d. h.

c_views.reduceByKey(sum_views).collect()

Jedoch verstehe ich nicht was ich genau in der funktion codieren muss. Ich versuche viele Dinge, aber ich bekomme immer einen Fehler. Ist der Workflow sinnvoll? Weitere einfache Möglichkeiten, um das Ergebnis zu erzielen?

Irgendein Vorschlag? Vielen Dank im Voraus für deine Hilfe

Antworten auf die Frage(2)

Ihre Antwort auf die Frage