Результаты поиска по запросу "apache-tika"

2 ответа

Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

Я использую Apache POI, чтобы прочитать документ Excel. По меньшей мере, он может служить моей цели на данный момент. Но одна вещь, в которой я поражаюсь, это извлечение значения ячейки как HTML. У меня есть одна ячейка, в которой пользователь ...

1 ответ

Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java

Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом: InputStream input = new FileInputStream("Introduction.pdf"); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(100 * ...

ТОП публикаций

1 ответ

Индексировать содержимое файла PDF с помощью Apache Solr

Я использую Solrрасширение php [http://www.php.net/manual/en/book.solr.php]для взаимодействия с Apache Solr. Я индексирую данные из базы данных. Я также хотел проиндексировать содержимое внешних файлов (таких как PDF, PPTX). Логика для ...

1 ответ

Проверка Mimetype с использованием банок Tika

1 ответ

Правильное использование Apache Tika MediaType

Я хочу использовать класс MediaType APache Tika для сравнения mediaTypes.Сначала я использую Tika для обнаружения MediaType. Затем я хочу начать действие в с...

2 ответа

Извлечение изображений из PDF с Apache Tika

Apache Tika 1.6 имеет возможность извлекать встроенные изображения из документов PDF. Однако я изо всех сил пытался заставить это работать.Мой пример использ...

3 ответа

Как мне индексировать документы в SOLR?

1 ответ

Apache Tika извлекает отсканированные файлы PDF

У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница...

2 ответа

Проблема развертывания Tika-Parsers на Wildfly

В рамках веб-приложения мне нужно проанализировать текстовое содержимое различных входящих файлов. Это должно быть довольно просто, используяTIKA-парсеры, но...