Extracción de tablas PDF
Tengo (los mismos) datos guardados como un archivo de imagen GIF y como un archivo PDF y quiero analizarlos en HTML o XML. Los datos son en realidad el menú de la cafetería de mi universidad. ¡Eso significa que hay una nueva versión del archivo que debe analizarse cada semana! En General, los archivos contienen texto de encabezado y pie de página, así como una tabla llena de otros datos intermedios. He leído algunas publicaciones en stackoverflow y también he iniciado algunos intentos de analizar los datos de la tabla como HTML / XML:
GIF
Tesseract-OCRObtuve el mejor resultado al analizar el archivo PDF con PDFBox, pero aún así (como el menú cambia semanalmente), no es lo suficientemente confiable. El HTML que recibo incluye a veces más, a veces menos "párrafos" (<p>
), de modo que no puedo analizar el precice de datos lo suficiente.
¿Por eso me gustaría saber si hay otra forma de hacerlo?