Результаты поиска по запросу "apache-tika"
В моем случае:
ужно получить MediaType iana.org, а не application / zip или application / x-tika-msoffice для таких документов, как odt, ppt, pptx, xlsx и т. Д. Если вы посмотрите на mimetypes.xml, то есть элементы mimeType, состоящие из mime-типа iana.org и ...
Как индексировать текстовые файлы, используя apache solr
Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика Apache преобразует текст в формат XML, а затем отправляет его в solr. Но ...
Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]
Мне нужно сравнить и получить все визуальные различия в двух файлах PDF. Я знаю, что есть некоторые вопросы, связанные с этим при переполнении стека, но они не удовлетворяют мою потребность. В настоящее время я использую PDFBox для генерации ...
невозможно настроить Tika1.2 с помощью solr4
Я пытаюсь использовать TikaEntityProcessor для индексации содержимого файла .html. Почему-то я не могу получить это правильно. Я проверил журнал ошибок и пол...
Я связался с документами из моего ответа.
ся, что вся документация, которую я могу найти, предполагает, что я могу извлечь только содержимое всего файла. Но мне нужно извлечь страницы по отдельности. Должен ли я написать свой собственный парсер для этого? Есть ли какой-то очевидный ...
невозможно настроить Tika1.2 с помощью solr4
Я пытаюсь использовать TikaEntityProcessor для индексации содержимого файла .html. Почему-то я не могу получить это правильно. Я проверил журнал ошибок и получил следующую ошибку. SEVERE: Full ...