Apache Tika извлекает отсканированные файлы PDF

У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница - это просто изображение. Моя цель в любом случае извлечь текст из файлов PDF.

Мой тессеракт настроен правильно, а извлечение файлов JPG и PNG работает как шарм. Код, который я использую, выглядит следующим образом (не обращайте внимания на отсутствующую обработку исключений):

public String extractText(InputStream stream) {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    Metadata metadata = new Metadata();
    ParseContext context = new ParseContext();
    parser.parse(stream, handler, metadata, context);
    String text = handler.toString();
    return text;
}

Я много искал, но я не нашел решений, которые бы работали на меня. Я уже попробовалsetExtractInlineImages методPDFParserConfig класс, но это ничего не изменило. Извлечение встроенных документов с использованием пользовательскихParsingEmbeddedDocumentExtractor Извлекать встроенные ресурсы из файла документа, но не для моих файлов PDF.

Было бы здорово, если бы кто-нибудь из вас мог оказать некоторую помощь :)

Ответы на вопрос(1)

Ваш ответ на вопрос