Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika
Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.
Что я пробовал: я пытался с AutoDetectParsers, но без вывода.
Я следовал решению, предоставленному вApache Tika извлекает отсканированные файлы PDF а также Apache Tika Jira вhttps://issues.apache.org/jira/browse/TIKA-1729 но получить пустую строку без каких-либо ошибок.
Моя конфигурация: Win 7 64-битная ОС, JDK 1.8.0_45.
Любая помощь приветствуется.