Cómo hadoop decide cuántos nodos se asignarán y reducirán tareas

Question

Oct 22, 2015, 03:24 PM

Cómo hadoop decide cuántos nodos se asignarán y reducirán tareas

Soy nuevo en hadoop y estoy tratando de entenderlo. Estoy hablando de hadoop 2. Cuando tengo un archivo de entrada que quiero hacer un MapReduce, en el programa MapReduce digo el parámetro del Split, por lo que hará tantas tareas de mapa como divisiones, ¿verdad?

El administrador de recursos sabe dónde están los archivos y enviará las tareas a los nodos que tienen los datos, pero ¿quién dice cuántos nodos harán las tareas? Después de que los mapas están donde está el shuffle, qué partidor hará una tarea de reducción es decidido por el particionador que hace un mapa hash, ¿verdad? ¿Cuántos nodos reducirán las tareas? ¿Los nodos que han hecho mapas reducirán también las tareas?

Gracias.

TLDR: Si tengo un clúster y ejecuto un trabajo de MapReduce, ¿cómo decide Hadoop cuántos nodos harán las tareas de mapa y luego qué nodos harán las tareas de reducción?