Spark Nach Schlüssel sortieren und dann nach gruppieren, um iterabel bestellt zu werden?
Ich habe ein Paar RDD(K, V)
mit dem Schlüssel mit einemtime
und einID
. Ich möchte ein Pair RDD der Form @ bekomm(K, Iterable<V>)
wo die Schlüssel nach ID gruppiert sind und das Iterable nach Zeit geordnet ist.
Ich benutze geradesortByKey().groupByKey()
und meine Tests scheinen zu beweisen, dass es funktioniert, aber ich lese, dass es möglicherweise nicht immer der Fall ist, wie in dieser Frage mit abweichenden Antworten diskutiert Behält groupByKey in Spark die ursprüngliche Reihenfolge bei?).
Ist es richtig oder nicht?
Vielen Dank