pyspark e reduzirByKey: como fazer uma soma simples

Estou tentando algum código no Spark (pyspark) para uma atribuição. Na primeira vez que uso esse ambiente, com certeza sinto falta de algo…

Eu tenho um conjunto de dados simples chamado c_views.

Se eu correrc_views.collect()

eu recebo
[…] (u'ABC', 100), (u'DEF', 200), (u'XXX', 50), (u'XXX', 70)] […]

O que eu preciso alcançar é osoma em todas as palavras. Então, meu palpite é que eu deveria obter algo como:

(u'ABC', 100), (u'DEF', 200), (u'XXX', 120)

Então, o que estou tentando fazer é (seguindo as dicas da tarefa):

primeiro eu defino a funçãosum_views(a,b) para o conjunto de dados de entrada e, em seguida, execute um replaceByKey, ou seja,

c_views.reduceByKey(sum_views).collect()

No entanto, eu não entendo o que exatamente tenho que codificar na função. Estou tentando muitas coisas, mas sempre recebo um erro. O fluxo de trabalho faz sentido? Outras maneiras simples de alcançar o resultado?

Alguma sugestão? Agradeço antecipadamente por sua ajuda.

questionAnswers(1)

yourAnswerToTheQuestion