Извлечение изображений из PDF с Apache Tika
Apache Tika 1.6 имеет возможность извлекать встроенные изображения из документов PDF. Однако я изо всех сил пытался заставить это работать.
Мой пример использования - мне нужен код, который будет извлекать содержимое и отдельно изображения из любых документов (не обязательно PDF-файлов). Затем он передается в конвейер Apache UIMA.
Мне удалось извлечь изображения из других типов документов с помощью пользовательского анализатора (построенного на AutoParser), чтобы преобразовать документы в HTML и затем сохранить изображения отдельно. Когда я пытаюсь работать с PDF-файлами, теги даже не появляются в HTML-коде, поэтому я получаю доступ к файлам.
Может ли кто-нибудь подсказать, как мне достичь этого, желательно с некоторыми примерами кода, как выполнять встроенное извлечение изображений из PDF-файлов с помощью Tika 1.6?