Extracción de tablas PDF

Question

Apr 24, 2012, 05:10 PM

Extracción de tablas PDF

Tengo (los mismos) datos guardados como un archivo de imagen GIF y como un archivo PDF y quiero analizarlos en HTML o XML. Los datos son en realidad el menú de la cafetería de mi universidad. ¡Eso significa que hay una nueva versión del archivo que debe analizarse cada semana! En General, los archivos contienen texto de encabezado y pie de página, así como una tabla llena de otros datos intermedios. He leído algunas publicaciones en stackoverflow y también he iniciado algunos intentos de analizar los datos de la tabla como HTML / XML:

PDF

PDFBox || iText (Java)Importación de Google DocsPDF2HTML || PDF2Table

GIF

Tesseract-OCR

Obtuve el mejor resultado al analizar el archivo PDF con PDFBox, pero aún así (como el menú cambia semanalmente), no es lo suficientemente confiable. El HTML que recibo incluye a veces más, a veces menos "párrafos" (<p>), de modo que no puedo analizar el precice de datos lo suficiente.

¿Por eso me gustaría saber si hay otra forma de hacerlo?