Извлечение определенных частей PDF-документов [закрыто]
У меня есть несколько (30) файлов PDF, каждый из которых содержит 48-96 страниц. Макет всех страниц одинаков, есть просто другое содержимое (цифры, графики).
Справочная информация. Эти страницы представляют собой отчеты в формате PDF об измерениях оптоволоконного кабеля, и я должен отсортировать их по затуханию в кабелях. Из-за конфиденциальных вопросов я, к сожалению, не могу привести пример файла.
Для проверки этих отчетов мы делаем несколько контрольных примеров, поэтому мне нужно отсортировать отчеты. Теперь возникает вопрос: как я могу экспортировать только очень определенные части всех страниц во всех файлах PDF в какой-то формат, который я могу отсортировать?
Как уже упоминалось, очень точно, где значения расположены на странице. Это тоже ужеразобранный» контент, чтобы он был доступенкак текст в PDF-файл, поэтому он не сканируется, OCR не требуется.
Любая помощь приветствуется. В настоящее время я не знаю, как решить эту проблему, это может быть какой-то инструмент, который делает что-то подобное, или программный подход для решения этой проблемы.