Jak działa algorytm sortowania MapReduce?

Question

Jul 20, 2009, 12:07 PM

mapreduce sorting parallel-processing hadoop algorithm

Jak działa algorytm sortowania MapReduce?

Jednym z głównych przykładów wykorzystywanych w demonstrowaniu mocy MapReduce jestBenchmark Terasort. Mam problem ze zrozumieniem podstaw algorytmu sortowania używanego w środowisku MapReduce.

Sortowanie polega po prostu na określeniu względnej pozycji elementu w stosunku do wszystkich innych elementów. Sortowanie polega na porównywaniu „wszystkiego” z „wszystkim”. Twój średni algorytm sortowania (szybki, bąbelkowy, ...) po prostu robi to w inteligentny sposób.

W moim umyśle podział zbioru danych na wiele części oznacza, że można posortować pojedynczy element, a następnie nadal trzeba zintegrować te elementy w „kompletnym” w pełni posortowanym zestawie danych. Biorąc pod uwagę terabajtowy zbiór danych rozproszony w tysiącach systemów, oczekuję, że będzie to ogromne zadanie.

Jak to się naprawdę robi? Jak działa ten algorytm sortowania MapReduce?

Dzięki za pomoc w zrozumieniu.