Spark groupByKey alternative

Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung erfolgt.Erläuterun

Also, meine Frage ist, was sind die Alternativen fürgroupByKey auf eine Weise, die Folgendes verteilt und schnell zurückgibt?

// want this
{"key1": "1", "key1": "2", "key1": "3", "key2": "55", "key2": "66"}
// to become this
{"key1": ["1","2","3"], "key2": ["55","66"]}

Scheint mir das vielleichtaggregateByKey oderglom könnte es zuerst in der Partition tun map) und dann alle Listen zusammenfügen reduce).

Antworten auf die Frage(2)

Ihre Antwort auf die Frage