Spark сортировать по ключу, а затем группировать, чтобы упорядочить повторяемость?
У меня есть пара RDD(K, V)
с ключом, содержащимtime
иID
, Я хотел бы получить пару RDD в форме(K, Iterable<V>)
где ключи сгруппированы по id, а итерация упорядочена по времени.
Я сейчас пользуюсьsortByKey().groupByKey()
и мои тесты, кажется, доказывают, что это работает, однако я читаю, что это не всегда так, как обсуждалось в этом вопросе с расходящимися ответами (Сохраняет ли groupByKey в Spark исходный порядок? ).
Это правильно или нет?
Спасибо!