Como funciona o algoritmo de classificação MapReduce?

Question

Jul 20, 2009, 12:07 PM

hadoop parallel-processing mapreduce algorithm sorting

Como funciona o algoritmo de classificação MapReduce?

Um dos principais exemplos usados para demonstrar o poder do MapReduce é aBenchmark da Terasort. Estou tendo problemas para entender os fundamentos do algoritmo de classificação usado no ambiente MapReduce.

Para mim, classificar envolve simplesmente determinar a posição relativa de um elemento em relação a todos os outros elementos. Então, classificar envolve a comparação de "tudo" com "tudo". Seu algoritmo de classificação médio (rápido, bolha, ...) simplesmente faz isso de uma maneira inteligente.

Na minha opinião, dividir o conjunto de dados em várias partes significa que você pode classificar uma única peça e, então, ainda é necessário integrar essas partes no conjunto de dados totalmente classificado "completo". Dado o conjunto de dados do terabyte distribuído em milhares de sistemas, espero que seja uma tarefa enorme.

Então, como isso é realmente feito? Como funciona esse algoritmo de classificação MapReduce?

Obrigado por me ajudar a entender.