PDF извлечение таблицы
У меня есть (те же) данные, сохраненные как файл изображения GIF и файл PDF, и я хочу проанализировать их в HTML или XML. Данные на самом деле меню для моей столовой университета. Это означает, что существует новая версия файла, которая должна анализироваться каждую неделю! В общем, файлы содержат некоторые заголовки и текст нижнего колонтитула, а также таблицу, заполненную другими данными между ними. Я прочитал несколько сообщений о стека и потоке, и я также начал несколько попыток разобрать данные таблицы в HTML / XML:
GIF
Tesseract-OCRЯ получил лучший результат при разборе PDF-файла с PDFBox, но все же (поскольку меню меняется еженедельно), он недостаточно надежен. HTML-код, который я получаю, включает иногда больше, иногда меньше "параграфов" (<p>
), так что я не могу проанализировать данные достаточно точно.
Вот почему я хотел бы знать, есть ли другой способ сделать это?