Hadoop, cómo comprimir la salida del mapeador pero no la salida del reductor

Question

Apr 06, 2011, 08:22 PM

Hadoop, cómo comprimir la salida del mapeador pero no la salida del reductor

Tengo un programa java map-reduce en el que trato de comprimir solo la salida del mapeador pero no la salida del reductor. Pensé que esto sería posible configurando las siguientes propiedades en la instancia de Configuración como se detalla a continuación. Sin embargo, cuando ejecuto mi trabajo, la salida generada por el reductor todavía está comprimida ya que el archivo generado es: part-r-00000.gz. ¿Alguien ha comprimido correctamente los datos del mapeador pero no el reductor? ¿Es eso posible?

// Comprimir salida del mapeador

conf.setBoolean("mapred.output.compress", true);
conf.set("mapred.output.compression.type", CompressionType.BLOCK.toString());
conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);