Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом:
InputStream input = new FileInputStream("Introduction.pdf");
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(100 * 1024 * 1024);
Metadata metadata = new Metadata();
parser.parse(input, handler, metadata);
System.out.println(handler.toString());
handler.toString()
отображает текст PDF, но этот текст также содержит маркеры, которые отображаются в виде?
символ, но я хочу эти пули как есть. Есть ли способ получить оригинальное, как есть, содержимое с помощью Apache Tika? Или где кодирование должно быть определено при разборе?