¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?

Question

Apr 21, 2011, 01:20 AM

¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?

Nuestro flujo de trabajo utiliza un mapa elástico de AWS que reduce el clúster para ejecutar una serie de trabajos de Pig para manipular una gran cantidad de datos en informes agregados. Desafortunadamente, los datos de entrada son potencialmente inconsistentes y pueden resultar en que no se entreguen archivos de entrada o archivos de 0 bytes a la tubería o incluso que se produzcan en algunas etapas de la tubería.

Durante una declaración LOAD, Pig falla espectacularmente si no encuentra ningún archivo de entrada o si alguno de los archivos de entrada tiene 0 bytes.

¿Hay alguna buena forma de solucionar esto (con suerte dentro de la configuración o script de Pig o la configuración de clúster Hadoop, sin escribir un cargador personalizado ...)?

(Dado que estamos usando AWS elastic map reduce, estamos atascados con Pig 0.6.0 y Hadoop 0.20.)