¿Cómo programar las tareas de Hadoop Map en un clúster multinodo de 8 nodos?

Question

Apr 29, 2012, 05:47 PM

¿Cómo programar las tareas de Hadoop Map en un clúster multinodo de 8 nodos?

Tengo un programa "solo mapa" (sin fase de reducción). El tamaño del archivo de entrada es lo suficientemente grande como para crear 7 tareas de mapa y lo he verificado mirando la salida producida (part-000 a part006). Ahora, mi clúster tiene 8 nodos, cada uno con 8 núcleos y 8 GB de memoria y sistema de archivos compartidos alojados en el nodo principal.

Mi pregunta es: ¿puedo elegir entre ejecutar las 7 tareas de mapas solo en 1 nodo o ejecutar las 7 tareas de mapas en 7 nodos esclavos diferentes (1 tarea por nodo)? Si puedo hacerlo, entonces qué cambio en mi código y archivo de configuración es necesario.

Intenté establecer el parámetro "mapred.tasktracker.map.tasks.maximum" en 1 y 7 solo en mi código, pero no encontré ninguna diferencia de tiempo apreciable. En mi archivo de configuración se establece como 1.