PDF извлечение таблицы

У меня есть (те же) данные, сохраненные как файл изображения GIF и файл PDF, и я хочу проанализировать их в HTML или XML. Данные на самом деле меню для моей столовой университета. Это означает, что существует новая версия файла, которая должна анализироваться каждую неделю! В общем, файлы содержат некоторые заголовки и текст нижнего колонтитула, а также таблицу, заполненную другими данными между ними. Я прочитал несколько сообщений о стека и потоке, и я также начал несколько попыток разобрать данные таблицы в HTML / XML:

PDF

PDFBox || iText (Java) Google Docs Import PDF2HTML || PDF2Table

GIF

Tesseract-OCR

Я получил лучший результат при разборе PDF-файла с PDFBox, но все же (поскольку меню меняется еженедельно), он недостаточно надежен. HTML-код, который я получаю, включает иногда больше, иногда меньше "параграфов" (<p>), так что я не могу проанализировать данные достаточно точно.

Вот почему я хотел бы знать, есть ли другой способ сделать это?

Ответы на вопрос(7)

Ваш ответ на вопрос