Извлечение данных таблицы из PDF [закрыт]
Есть ли последовательный способ извлечь таблицы из файлов PDF? Какие-нибудь инструменты?
Что я сделал до сих пор:
Я попробовалpdftotext
инструмент. Он имеет возможность конвертировать в HTML-макет.В чем проблема с этим:
Информация таблицы не сохраняется в выводе HTMLЯ ожидал<table>
теги, но все было под<p>
теги.Будут ли в документе PDF какие-либо маркеры для обозначения структур таблиц? подобно<table>
, <tr>
а также<td>
в HTML?
Если «да», любые указатели на это будут полезны. Если «нет», определенная информация об этом факте также полезна.