Apache Tika извлекает отсканированные файлы PDF

Question

Sep 02, 2015, 03:13 PM

Apache Tika извлекает отсканированные файлы PDF

У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница - это просто изображение. Моя цель в любом случае извлечь текст из файлов PDF.

Мой тессеракт настроен правильно, а извлечение файлов JPG и PNG работает как шарм. Код, который я использую, выглядит следующим образом (не обращайте внимания на отсутствующую обработку исключений):

public String extractText(InputStream stream) {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    Metadata metadata = new Metadata();
    ParseContext context = new ParseContext();
    parser.parse(stream, handler, metadata, context);
    String text = handler.toString();
    return text;
}

Я много искал, но я не нашел решений, которые бы работали на меня. Я уже попробовалsetExtractInlineImages методPDFParserConfig класс, но это ничего не изменило. Извлечение встроенных документов с использованием пользовательскихParsingEmbeddedDocumentExtractor Извлекать встроенные ресурсы из файла документа, но не для моих файлов PDF.

Было бы здорово, если бы кто-нибудь из вас мог оказать некоторую помощь :)

Apache Tika извлекает отсканированные файлы PDF

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Apache Tika извлекает отсканированные файлы PDF

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы