Analisando o elemento XmlInputFormat maior que o tamanho do bloco hdfs

Question

Sep 28, 2012, 02:07 PM

Analisando o elemento XmlInputFormat maior que o tamanho do bloco hdfs

Sou novo no Hadoop MapReduce (4 dias para ser preciso) e fui solicitado a executar a análise XML distribuída em um cluster. De acordo com minha (re) pesquisa na Internet, deve ser bastante fácil usar o XmlInputFormat do Mahout, mas minha tarefa é garantir que o sistema funcione para arquivos XML enormes (~ 5TB).

Segundo meu conhecimento, as divisões de arquivo enviadas aos mapeadores não podem ser maiores que o tamanho do bloco hdfs (ou o tamanho do bloco por trabalho). [Corrija-me se estiver enganado].

A questão que estou enfrentando é que alguns elementos XML são grandes (~ 200MB) e alguns são pequenos (~ 1MB)

Então, minha pergunta é: O que acontece quando o pedaço de elemento XML criado por XmlInputFormat é maior que o tamanho de bloco? Será que ele enviará todo o arquivo grande (digamos, 200MB) para um mapeador ou enviará o elemento em três divisões (64 + 64 + 64 + 8)?

Eu atualmente não tenho acesso ao cluster de hadoop da empresa (e não serei até algum momento), por isso não posso realizar um teste e descobrir. Por favor me ajude.