Arquivo BZip2 lido no Hadoop

Question

Dec 26, 2012, 04:37 AM

Arquivo BZip2 lido no Hadoop

Ouvi dizer que podemos usar vários mapeadores para ler diferentes partes de um arquivo bzip2 em paralelo no Hadoop, para aumentar o desempenho. Mas não consigo encontrar amostras relacionadas após a pesquisa. Aprecie se alguém poderia me indicar o trecho de código relacionado. Obrigado.

BTW: é o gzip tem o mesmo recurso (o mapeador múltiplo processa diferentes partes de um arquivo gzip em paralelo).