Spark groupByKey alternative

Question

Jun 24, 2015, 04:30 PM

Spark groupByKey alternative

Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung erfolgt.Erläuterun

Also, meine Frage ist, was sind die Alternativen fürgroupByKey auf eine Weise, die Folgendes verteilt und schnell zurückgibt?

// want this
{"key1": "1", "key1": "2", "key1": "3", "key2": "55", "key2": "66"}
// to become this
{"key1": ["1","2","3"], "key2": ["55","66"]}

Scheint mir das vielleichtaggregateByKey oderglom könnte es zuerst in der Partition tun map) und dann alle Listen zusammenfügen reduce).

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Zeile zur Spaltenumwandlung in MySQL

0 die antwort

Zugriff auf ein geschütztes Mitglied einer Basisklasse in einer anderen Unterklasse

0 die antwort

Was passiert, wenn Sie auf das Startsymbol einer Anwendung klicken?

0 die antwort

Wo befindet sich die klassische vertikale Bildlaufleiste in PyDev?

0 die antwort

Variablen an Rails StateMachine-Gem-Übergänge übergeben

Du bist sehr aktiv! Es ist großartig!

Spark groupByKey alternative

Antworten auf die Frage(2)

Ihre Antwort auf die Frage

Top Fragen