Jak działa algorytm sortowania MapReduce?
Jednym z głównych przykładów wykorzystywanych w demonstrowaniu mocy MapReduce jestBenchmark Terasort. Mam problem ze zrozumieniem podstaw algorytmu sortowania używanego w środowisku MapReduce.
Sortowanie polega po prostu na określeniu względnej pozycji elementu w stosunku do wszystkich innych elementów. Sortowanie polega na porównywaniu „wszystkiego” z „wszystkim”. Twój średni algorytm sortowania (szybki, bąbelkowy, ...) po prostu robi to w inteligentny sposób.
W moim umyśle podział zbioru danych na wiele części oznacza, że można posortować pojedynczy element, a następnie nadal trzeba zintegrować te elementy w „kompletnym” w pełni posortowanym zestawie danych. Biorąc pod uwagę terabajtowy zbiór danych rozproszony w tysiącach systemów, oczekuję, że będzie to ogromne zadanie.
Jak to się naprawdę robi? Jak działa ten algorytm sortowania MapReduce?
Dzięki za pomoc w zrozumieniu.