Результаты поиска по запросу "apache-tika"

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

2 ответа

Извлечение изображений из PDF с Apache Tika

Apache Tika 1.6 имеет возможность извлекать встроенные изображения из документов PDF. Однако я изо всех сил пытался заставить это работать.Мой пример использ...

1 ответ

Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika

Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.Что я пробовал: я пытался с AutoDetectParsers, но без вывода.Я следовал реш...

ТОП публикаций

2 ответа

Как индексировать текстовые файлы, используя apache solr

Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика A...

1 ответ

Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java

Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом: InputStream input = new FileInputStream("Introduction.pdf"); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(100 * ...

1 ответ

Индексировать содержимое файла PDF с помощью Apache Solr

5 ответов

Это может помочь.

кто-нибудь указать мне на учебник. Мой основной опыт работы с Solr - индексирование файлов CSV. Но я не могу найти какие-либо простые инструкции / учебник, чтобы сказать мне, что мне нужно сделать, чтобы индексировать PDF-файлы. Я видел ...

2 ответа

Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]

4 ответа

Как создать собственную модель с использованием OpenNLP?

я пытаюсьизвлекать сущностилюбитьИмена, Навыкииз документа с использованием OpenNLP Java API, ноэто не извлечение собственных имен, Я использую модель, доступную наopennlp ссылка на sourceforge [http://opennlp.sourceforge.net/models-1.5/] Вот ...

1 ответ

Apache Tika извлекает отсканированные файлы PDF

У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница...