Результаты поиска по запросу "apache-tika"
Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]
Мне нужно сравнить и получить все визуальные различия в двух файлах PDF. Я знаю, что есть некоторые вопросы, связанные с этим при переполнении стека, но они не удовлетворяют мою потребность. В настоящее время я использую PDFBox для генерации ...
Правильное использование Apache Tika MediaType
Я хочу использовать класс MediaType APache Tika для сравнения mediaTypes.Сначала я использую Tika для обнаружения MediaType. Затем я хочу начать действие в с...
Читать содержимое из файлов, которые находятся внутри Zip-файла
Я пытаюсь создать простую Java-программу, которая читает и извлекает содержимое из файла (-ов) внутри zip-файла. Zip-файл содержит 3 файла (txt, pdf, docx). ...
невозможно настроить Tika1.2 с помощью solr4
Я пытаюсь использовать TikaEntityProcessor для индексации содержимого файла .html. Почему-то я не могу получить это правильно. Я проверил журнал ошибок и пол...
Обратите внимание, что -1 - это неограниченное количество символов!
кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...
в..
, чтобы извлечь все содержимое тела HTML, кроме верхнего и нижнего колонтитула, но я получаю исключениеorg.xml.sax.SAXException: пространство именhttp://www....