Извлечение изображений из PDF с Apache Tika

Question

Sep 11, 2014, 10:58 AM

Извлечение изображений из PDF с Apache Tika

Apache Tika 1.6 имеет возможность извлекать встроенные изображения из документов PDF. Однако я изо всех сил пытался заставить это работать.

Мой пример использования - мне нужен код, который будет извлекать содержимое и отдельно изображения из любых документов (не обязательно PDF-файлов). Затем он передается в конвейер Apache UIMA.

Мне удалось извлечь изображения из других типов документов с помощью пользовательского анализатора (построенного на AutoParser), чтобы преобразовать документы в HTML и затем сохранить изображения отдельно. Когда я пытаюсь работать с PDF-файлами, теги даже не появляются в HTML-коде, поэтому я получаю доступ к файлам.

Может ли кто-нибудь подсказать, как мне достичь этого, желательно с некоторыми примерами кода, как выполнять встроенное извлечение изображений из PDF-файлов с помощью Tika 1.6?

Извлечение изображений из PDF с Apache Tika

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Извлечение изображений из PDF с Apache Tika

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы