Получить максимальное значение для каждого ключа в Spark RDD
Каков наилучший способ вернуть максимальную строку (значение), связанную с каждым уникальным ключом в искровой СДР?
Я использую Python, и я пробовал Math Max, отображение и сокращение по ключам и агрегатам. Есть ли эффективный способ сделать это? Возможно UDF?
У меня есть в формате RDD:
[(v, 3),
(v, 1),
(v, 1),
(w, 7),
(w, 1),
(x, 3),
(y, 1),
(y, 1),
(y, 2),
(y, 3)]
И мне нужно вернуться:
[(v, 3),
(w, 7),
(x, 3),
(y, 3)]
Связи могут вернуть первое значение или случайное.