Faísca classificar por chave e, em seguida, agrupar para ser ordenado iterável?
Eu tenho um par RDD(K, V)
com a chave que contém umtime
e umID
. Gostaria de obter um par RDD do formulário(K, Iterable<V>)
onde as chaves são agrupadas por id e o iterável é ordenado por hora.
Atualmente estou usandosortByKey().groupByKey()
e meus testes parecem provar que funciona, no entanto, estou lendo que nem sempre é o caso, conforme discutido nesta pergunta com respostas divergentes (GroupByKey no Spark preserva o pedido original? )
Está correto ou não?
Obrigado!