Parcar archivos PDF en Hadoop Map Reduce

Question

Feb 24, 2012, 09:41 AM

Parcar archivos PDF en Hadoop Map Reduce

Tengo que analizar archivos PDF, que están en HDFS en un programa Map Reduce en Hadoop. Entonces obtengo el archivo PDF de HDFS comoInput splits y debe analizarse y enviarse a la clase Mapper. Para implementar este InputFormat, había pasado por esteenlac. ¿Cómo se pueden analizar y convertir estas divisiones de entrada a formato de texto?