Como você lida com arquivos de entrada vazios ou ausentes no Apache Pi

Question

Apr 21, 2011, 01:20 AM

Como você lida com arquivos de entrada vazios ou ausentes no Apache Pi

Nosso fluxo de trabalho usa um cluster elástico de redução de mapa da AWS para executar uma série de tarefas do Pig para manipular uma grande quantidade de dados em relatórios agregados. Infelizmente, os dados de entrada são potencialmente inconsistentes e podem resultar em nenhum arquivo de entrada ou arquivo de 0 byte sendo fornecido ao pipeline ou mesmo sendo produzido por alguns estágios do pipelin

urante uma instrução LOAD, o Pig falha espetacularmente se não encontrar nenhum arquivo de entrada ou se nenhum dos arquivos de entrada tiver 0 byte

Existe alguma boa maneira de contornar isso (espero que dentro da configuração ou script do Pig ou da configuração do cluster Hadoop, sem gravar um carregador personalizado ...

(Como estamos usando o mapa elástico da AWS para reduzir, estamos presos ao Pig 0.6.0 e ao Hadoop 0.20.)