Spark groupByKey alternative
Nach den Best Practices von Databricks ist SparkgroupByKey
sollte vermieden werden, da SparkgroupByKey
ie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung erfolgt.Erläuterun
Also, meine Frage ist, was sind die Alternativen fürgroupByKey
auf eine Weise, die Folgendes verteilt und schnell zurückgibt?
// want this
{"key1": "1", "key1": "2", "key1": "3", "key2": "55", "key2": "66"}
// to become this
{"key1": ["1","2","3"], "key2": ["55","66"]}
Scheint mir das vielleichtaggregateByKey
oderglom
könnte es zuerst in der Partition tun map
) und dann alle Listen zusammenfügen reduce
).