Результаты поиска по запросу "apache-tika"
Обратите внимание, что -1 - это неограниченное количество символов!
кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...
как я могу определить фарси веб-страниц по Тика?
Мне нужен пример кода, который поможет мне обнаружить веб-страницы на фарси с помощью Apache Tika Toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Я скачал файлы jar apache.tika ...
Значение ячейки в формате HTML из Excel с использованием Apache POI
Я использую Apache POI, чтобы прочитать документ Excel. По меньшей мере, он может служить моей цели на данный момент. Но одна вещь, в которой я поражаюсь, это извлечение значения ячейки как HTML. У меня есть одна ячейка, в которой пользователь ...
Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом: InputStream input = new FileInputStream("Introduction.pdf"); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(100 * ...
Индексировать содержимое файла PDF с помощью Apache Solr
Я использую Solrрасширение php [http://www.php.net/manual/en/book.solr.php]для взаимодействия с Apache Solr. Я индексирую данные из базы данных. Я также хотел проиндексировать содержимое внешних файлов (таких как PDF, PPTX). Логика для ...
Elasticsearch Parse Exception error при попытке индексирования PDF
Я только начинаю работать сasticsearch. Наше требование состоит в том, что нам необходимо индексировать тысячи файлов PDF, и мне трудно получить только ОДИН ...
Как индексировать текстовые файлы, используя apache solr
Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика A...
Извлечение изображений из PDF с Apache Tika
Apache Tika 1.6 имеет возможность извлекать встроенные изображения из документов PDF. Однако я изо всех сил пытался заставить это работать.Мой пример использ...
Проблема развертывания Tika-Parsers на Wildfly
В рамках веб-приложения мне нужно проанализировать текстовое содержимое различных входящих файлов. Это должно быть довольно просто, используяTIKA-парсеры, но...