Apache Tika extrai arquivos PDF digitalizados

Estou tendo alguns problemas com o Apache TIKA (versão 1.10). Eu tenho alguns arquivos PDF que são apenas pedaços de papel digitalizados. Isso significa que cada página é apenas uma imagem. Meu objetivo é extrair o texto dos arquivos PDF de qualquer maneira.

Meu tesseract está configurado corretamente e a extração de arquivos JPG e PNG funciona como um encanto. O código que estou usando se parece com isso (não se importe com o tratamento de excreção ausente):

public String extractText(InputStream stream) {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    Metadata metadata = new Metadata();
    ParseContext context = new ParseContext();
    parser.parse(stream, handler, metadata, context);
    String text = handler.toString();
    return text;
}

Pesquisei bastante, mas não encontrei nenhuma solução que funcionasse para mim. Eu já tentei osetExtractInlineImages método doPDFParserConfig classe, mas isso não mudou nada. Extraindo documentos incorporados usando um método personalizadoParsingEmbeddedDocumentExtractor extraiu recursos incorporados de um arquivo doc, mas não para meus arquivos PDF.

Seria incrível se algum de vocês pudesse fornecer alguma ajuda :)

questionAnswers(1)

yourAnswerToTheQuestion