Извлечение изображений и слов с координатами и размерами из PDF

Я много читал об извлечении PDF и библиотеках (как iText), но я просто не нашел решения для извлечения изображений и текста (с координатами) из PDF.

Задача - отсканировать PDF с каталогом продукции и извлечь каждое изображение. Существуеткод изображения напечатано рядом с каждым изображением, а также списоккоды продуктов для продуктов, которые показаны на изображении.

Я знаю, что нет способа извлечь структурированную информацию из PDF-файла, как это, но с координатами всех графических и текстовых объектов, я мог бы написать код, чтобы идентифицировать связанный текст по его расстоянию от изображения. Затем я мог бы разделить текст с помощью RegExp и выяснить, что такоекод продуктачто такоекод изображения и т.п.

Не могли бы вы порекомендовать хорошее и рабочее решение для этой задачи?

Ответы на вопрос(3)

Ваш ответ на вопрос