Cómo trabajo cliente en hadoop calcular inputSplits

Question

Apr 18, 2013, 10:56 AM

Cómo trabajo cliente en hadoop calcular inputSplits

Estoy tratando de obtener la visión del mapa reducir la arquitectura. Estoy consultando estohttp://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop/ artículo. Tengo algunas preguntas con respecto al componente JobClient de mapreduce framework. Mis preguntas son:

¿Cómo el JObClient calcula las entradas de Splits en los datos?

De acuerdo con lo que estoy consultando, Job Client calcula las divisiones de entrada en los datos ubicados en la ruta de entrada en el HDFS especificado mientras se ejecuta el trabajo. El artículo dice que Job Client copia los recursos (tarros y divisiones de entrada compiladas) al HDFS. Ahora, aquí está mi pregunta, cuando los datos de entrada están en HDFS, por qué jobClient copia los ingresos computados en HDFS.

Supongamos que Job Client copia las divisiones de entrada al HDFS. Ahora, cuando se envía el JOb al Rastreador de tareas y al Rastreador de tareas, ¿no se puede recuperar el trabajo por qué recupera las divisiones de entrada de HDFS?

Disculpas si mi pregunta no es clara. Soy un principiante. :)