Результаты поиска по запросу "apache-tika"
как я могу определить фарси веб-страниц по Тика?
Мне нужен пример кода, который поможет мне обнаружить веб-страницы на фарси с помощью Apache Tika Toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Я скачал файлы jar apache.tika ...
Elasticsearch Parse Exception error при попытке индексирования PDF
Я только начинаю работать сasticsearch. Наше требование состоит в том, что нам необходимо индексировать тысячи файлов PDF, и мне трудно получить только ОДИН ...
Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika
Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.Что я пробовал: я пытался с AutoDetectParsers, но без вывода.Я следовал реш...
В моем случае:
ужно получить MediaType iana.org, а не application / zip или application / x-tika-msoffice для таких документов, как odt, ppt, pptx, xlsx и т. Д. Если вы посмотрите на mimetypes.xml, то есть элементы mimeType, состоящие из mime-типа iana.org и ...
Обратите внимание, что -1 - это неограниченное количество символов!
кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...
Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом:
Apache Tika извлекает отсканированные файлы PDF
У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница...
Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом: InputStream input = new FileInputStream("Introduction.pdf"); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(100 * ...