Apache Tika извлекает отсканированные файлы PDF
У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница - это просто изображение. Моя цель в любом случае извлечь текст из файлов PDF.
Мой тессеракт настроен правильно, а извлечение файлов JPG и PNG работает как шарм. Код, который я использую, выглядит следующим образом (не обращайте внимания на отсутствующую обработку исключений):
public String extractText(InputStream stream) {
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
parser.parse(stream, handler, metadata, context);
String text = handler.toString();
return text;
}
Я много искал, но я не нашел решений, которые бы работали на меня. Я уже попробовалsetExtractInlineImages
методPDFParserConfig
класс, но это ничего не изменило. Извлечение встроенных документов с использованием пользовательскихParsingEmbeddedDocumentExtractor
Извлекать встроенные ресурсы из файла документа, но не для моих файлов PDF.
Было бы здорово, если бы кто-нибудь из вас мог оказать некоторую помощь :)