Spark сортировать по ключу, а затем группировать, чтобы упорядочить повторяемость?

Question

Apr 22, 2015, 10:51 AM

Spark сортировать по ключу, а затем группировать, чтобы упорядочить повторяемость?

У меня есть пара RDD(K, V) с ключом, содержащимtime иID, Я хотел бы получить пару RDD в форме(K, Iterable<V>) где ключи сгруппированы по id, а итерация упорядочена по времени.

Я сейчас пользуюсьsortByKey().groupByKey() и мои тесты, кажется, доказывают, что это работает, однако я читаю, что это не всегда так, как обсуждалось в этом вопросе с расходящимися ответами (Сохраняет ли groupByKey в Spark исходный порядок? ).

Это правильно или нет?

Спасибо!

Spark сортировать по ключу, а затем группировать, чтобы упорядочить повторяемость?

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Spark сортировать по ключу, а затем группировать, чтобы упорядочить повторяемость?

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы