Obtenga el nombre del archivo de entrada en el programa de transmisión de hadoop

Question

Sep 16, 2011, 09:59 PM

python hadoop filesplitting input streaming

Obtenga el nombre del archivo de entrada en el programa de transmisión de hadoop

Puedo encontrar el nombre si el archivo de entrada en una clase de mapeador usando FileSplit al escribir el programa en Java.

¿Hay una forma correspondiente de hacer esto cuando escribo un programa en Python (usando streaming?)

Encontré lo siguiente en el documento de transmisión de hadoop en apache:

Ver los parámetros configurados. Durante la ejecución de un trabajo de transmisión, los nombres de los parámetros "mapeados" se transforman. Los puntos (.) Se convierten en guiones bajos (_). Por ejemplo, mapred.job.id se convierte en mapred_job_id y mapred.jar se convierte en mapred_jar. En su código, use los nombres de los parámetros con los guiones bajos.

Pero aún no puedo entender cómo usar esto dentro de mi mapeador.

Cualquier ayuda es muy apreciada

Gracia