Результаты поиска по запросу "apache-tika"

1 ответ

Обратите внимание, что -1 - это неограниченное количество символов!

кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...

1 ответ

как я могу определить фарси веб-страниц по Тика?

Мне нужен пример кода, который поможет мне обнаружить веб-страницы на фарси с помощью Apache Tika Toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Я скачал файлы jar apache.tika ...

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

Я использую Apache POI, чтобы прочитать документ Excel. По меньшей мере, он может служить моей цели на данный момент. Но одна вещь, в которой я поражаюсь, это извлечение значения ячейки как HTML. У меня есть одна ячейка, в которой пользователь ...

ТОП публикаций

1 ответ

Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java

Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом: InputStream input = new FileInputStream("Introduction.pdf"); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(100 * ...

1 ответ

Индексировать содержимое файла PDF с помощью Apache Solr

Я использую Solrрасширение php [http://www.php.net/manual/en/book.solr.php]для взаимодействия с Apache Solr. Я индексирую данные из базы данных. Я также хотел проиндексировать содержимое внешних файлов (таких как PDF, PPTX). Логика для ...

2 ответа

Elasticsearch Parse Exception error при попытке индексирования PDF

Я только начинаю работать сasticsearch. Наше требование состоит в том, что нам необходимо индексировать тысячи файлов PDF, и мне трудно получить только ОДИН ...

2 ответа

Как индексировать текстовые файлы, используя apache solr

Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика A...

2 ответа

Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]

2 ответа

Извлечение изображений из PDF с Apache Tika

Apache Tika 1.6 имеет возможность извлекать встроенные изображения из документов PDF. Однако я изо всех сил пытался заставить это работать.Мой пример использ...

2 ответа

Проблема развертывания Tika-Parsers на Wildfly

В рамках веб-приложения мне нужно проанализировать текстовое содержимое различных входящих файлов. Это должно быть довольно просто, используяTIKA-парсеры, но...