Arquivo BZip2 lido no Hadoop
Ouvi dizer que podemos usar vários mapeadores para ler diferentes partes de um arquivo bzip2 em paralelo no Hadoop, para aumentar o desempenho. Mas não consigo encontrar amostras relacionadas após a pesquisa. Aprecie se alguém poderia me indicar o trecho de código relacionado. Obrigado.
BTW: é o gzip tem o mesmo recurso (o mapeador múltiplo processa diferentes partes de um arquivo gzip em paralelo).