Extração de tabelas em PDF

Question

Apr 24, 2012, 05:10 PM

Extração de tabelas em PDF

Eu tenho (mesmo) dados salvos como um arquivo de imagem GIF e como um arquivo PDF e quero analisá-lo para HTML ou XML. Os dados são, na verdade, o menu da cafeteria da minha universidade. Isso significa que há uma nova versão do arquivo que deve ser analisada a cada semana! Em geral, os arquivos contêm algum texto de cabeçalho e rodapé, bem como uma tabela cheia de outros dados intermediários. Eu li algumas postagens no stackoverflow e também iniciei algumas tentativas de analisar os dados da tabela como HTML / XML:

PDF

PDFBox || iText (Java)Importação de documentos do GooglePDF2HTML || PDF2Table

GIF

Tesseract-OCR

Eu tenho o melhor resultado de analisar o arquivo PDF com PDFBox, mas ainda assim (como o menu muda semanalmente), não é confiável o suficiente. O HTML que recebo inclui por vezes mais, por vezes menos "parágrafos" (<p>), para que eu não seja capaz de analisar o precice de dados o suficiente.

É por isso que gostaria de saber se existe outra maneira de fazer isso?