Sep 29, 2016, 08:23 AM

pdf apache-tika java parsing ocr

Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika

Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.

Что я пробовал: я пытался с AutoDetectParsers, но без вывода.

Я следовал решению, предоставленному вApache Tika извлекает отсканированные файлы PDF а также Apache Tika Jira вhttps://issues.apache.org/jira/browse/TIKA-1729 но получить пустую строку без каких-либо ошибок.

Моя конфигурация: Win 7 64-битная ОС, JDK 1.8.0_45.

Любая помощь приветствуется.

Ответы на вопрос(1)

Популярные вопросы

0 ответов

Предмонадный ввод / вывод на Haskell

0 ответов

Сохраните данные в .net mvc

0 ответов

Libnodave: connectPLC возвращает -1

0 ответов

Matlab - случайная прогулка с границами, векторизация

0 ответов

Java Thread Sleep и прерванное исключение