¿Cómo funciona el algoritmo de clasificación de MapReduce?

Question

Jul 20, 2009, 12:07 PM

algorithm parallel-processing sorting mapreduce hadoop

¿Cómo funciona el algoritmo de clasificación de MapReduce?

Uno de los principales ejemplos que se usa para demostrar el poder de MapReduce es elTerasort benchmark. Tengo problemas para comprender los conceptos básicos del algoritmo de clasificación utilizado en el entorno MapReduce.

Para mí, la clasificación simplemente implica determinar la posición relativa de un elemento en relación con todos los demás elementos. Así que la clasificación implica comparar "todo" con "todo". Su algoritmo de clasificación promedio (rápido, burbuja, ...) simplemente hace esto de una manera inteligente.

En mi mente, dividir el conjunto de datos en muchas partes significa que puede ordenar una sola pieza y luego aún tiene que integrar estas piezas en el conjunto de datos completamente ordenado y 'completo'. Dado el conjunto de datos de terabyte distribuido en miles de sistemas, espero que esta sea una tarea enorme.

Entonces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de clasificación de MapReduce?

Gracias por ayudarme a entender.