Получить максимальное значение для каждого ключа в Spark RDD

Question

May 04, 2016, 02:17 AM

Каков наилучший способ вернуть максимальную строку (значение), связанную с каждым уникальным ключом в искровой СДР?

Я использую Python, и я пробовал Math Max, отображение и сокращение по ключам и агрегатам. Есть ли эффективный способ сделать это? Возможно UDF?

У меня есть в формате RDD:

[(v, 3),
 (v, 1),
 (v, 1),
 (w, 7),
 (w, 1),
 (x, 3),
 (y, 1),
 (y, 1),
 (y, 2),
 (y, 3)]

И мне нужно вернуться:

[(v, 3),
 (w, 7),
 (x, 3),
 (y, 3)]

Связи могут вернуть первое значение или случайное.

Ответы на вопрос(1)