PDF извлечение таблицы

Question

May 19, 2017, 12:44 PM

PDF извлечение таблицы

У меня есть (те же) данные, сохраненные как файл изображения GIF и файл PDF, и я хочу проанализировать их в HTML или XML. Данные на самом деле меню для моей столовой университета. Это означает, что существует новая версия файла, которая должна анализироваться каждую неделю! В общем, файлы содержат некоторые заголовки и текст нижнего колонтитула, а также таблицу, заполненную другими данными между ними. Я прочитал несколько сообщений о стека и потоке, и я также начал несколько попыток разобрать данные таблицы в HTML / XML:

PDF

PDFBox || iText (Java) Google Docs Import PDF2HTML || PDF2Table

GIF

Tesseract-OCR

Я получил лучший результат при разборе PDF-файла с PDFBox, но все же (поскольку меню меняется еженедельно), он недостаточно надежен. HTML-код, который я получаю, включает иногда больше, иногда меньше "параграфов" (<p>), так что я не могу проанализировать данные достаточно точно.

Вот почему я хотел бы знать, есть ли другой способ сделать это?

PDF извлечение таблицы

Ответы на вопрос(7)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

PDF извлечение таблицы

Ответы на вопрос(7)

Ваш ответ на вопрос

Популярные вопросы