Результаты поиска по запросу "apache-tika"

4 ответа

Как создать собственную модель с использованием OpenNLP?

я пытаюсьизвлекать сущностилюбитьИмена, Навыкииз документа с использованием OpenNLP Java API, ноэто не извлечение собственных имен, Я использую модель, доступную наopennlp ссылка на sourceforge [http://opennlp.sourceforge.net/models-1.5/] Вот ...

3 ответа

Я связался с документами из моего ответа.

ся, что вся документация, которую я могу найти, предполагает, что я могу извлечь только содержимое всего файла. Но мне нужно извлечь страницы по отдельности. Должен ли я написать свой собственный парсер для этого? Есть ли какой-то очевидный ...

2 ответа

Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]

ТОП публикаций

2 ответа

Как индексировать текстовые файлы, используя apache solr

Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика Apache преобразует текст в формат XML, а затем отправляет его в solr. Но ...

3 ответа

невозможно настроить Tika1.2 с помощью solr4

Я пытаюсь использовать TikaEntityProcessor для индексации содержимого файла .html. Почему-то я не могу получить это правильно. Я проверил журнал ошибок и получил следующую ошибку. SEVERE: Full ...

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

1 ответ

Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java

Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом:

2 ответа

Elasticsearch Parse Exception error при попытке индексирования PDF

Я только начинаю работать сasticsearch. Наше требование состоит в том, что нам необходимо индексировать тысячи файлов PDF, и мне трудно получить только ОДИН ...

1 ответ

Обратите внимание, что -1 - это неограниченное количество символов!

кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...

5 ответов

Чтение содержимого из файлов, которые находятся внутри Zip-файла

Я пытаюсь создать простую Java-программу, которая читает и извлекает содержимое из файла (-ов) внутри zip-файла. Zip-файл содержит 3 файла (txt, pdf, docx). Мне нужно прочитать содержимое всех этих файлов, и я используюАпач Тикадля этого. Может ...