Результаты поиска по запросу "apache-tika"

3 ответа

Как мне индексировать документы в SOLR?

5 ответов

Читать содержимое из файлов, которые находятся внутри Zip-файла

Я пытаюсь создать простую Java-программу, которая читает и извлекает содержимое из файла (-ов) внутри zip-файла. Zip-файл содержит 3 файла (txt, pdf, docx). ...

5 ответов

Это может помочь.

кто-нибудь указать мне на учебник. Мой основной опыт работы с Solr - индексирование файлов CSV. Но я не могу найти какие-либо простые инструкции / учебник, чтобы сказать мне, что мне нужно сделать, чтобы индексировать PDF-файлы. Я видел ...

ТОП публикаций

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

4 ответа

Как создать собственную модель с использованием OpenNLP?

я пытаюсьизвлекать сущностилюбитьИмена, Навыкииз документа с использованием OpenNLP Java API, ноэто не извлечение собственных имен, Я использую модель, доступную наopennlp ссылка на sourceforge [http://opennlp.sourceforge.net/models-1.5/] Вот ...

1 ответ

в..

, чтобы извлечь все содержимое тела HTML, кроме верхнего и нижнего колонтитула, но я получаю исключениеorg.xml.sax.SAXException: пространство именhttp://www....

1 ответ

как я могу определить фарси веб-страниц по Тика?

Мне нужен пример кода, который поможет мне обнаружить веб-страницы на фарси с помощью Apache Tika Toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Я скачал файлы jar apache.tika ...

2 ответа

Проблема развертывания Tika-Parsers на Wildfly

В рамках веб-приложения мне нужно проанализировать текстовое содержимое различных входящих файлов. Это должно быть довольно просто, используяTIKA-парсеры, но...

1 ответ

Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika

Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.Что я пробовал: я пытался с AutoDetectParsers, но без вывода.Я следовал реш...

1 ответ

Apache Tika извлекает отсканированные файлы PDF

У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница...