Результаты поиска по запросу "apache-tika"
Как индексировать текстовые файлы, используя apache solr
Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика A...
Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом:
Значение ячейки в формате HTML из Excel с использованием Apache POI
Я использую Apache POI, чтобы прочитать документ Excel. По меньшей мере, он может служить моей цели на данный момент. Но одна вещь, в которой я поражаюсь, это извлечение значения ячейки как HTML. У меня есть одна ячейка, в которой пользователь ...
Но тестирование без загрузки URL-адреса позволит выяснить, происходит ли это только при загрузке URL-адресов или также при загрузке локальных файлов. Если позже, то ваш код для воспроизведения эффекта будет меньше. Кстати, большая часть используемой вами памяти - это HashMap. Узнайте, где это используется. И обновить до последней версии.
ользуюPDF Box version 2.0.9 в моем приложении. Я должен разобрать большие файлы PDF из Интернета. Ниже приведен код, который я использую Класс MimeDetector @Getter @Setter class MimeTypeDetector { private ...
Как создать собственную модель с использованием OpenNLP?
я пытаюсьизвлекать сущностилюбитьИмена, Навыкииз документа с использованием OpenNLP Java API, ноэто не извлечение собственных имен, Я использую модель, доступную наopennlp ссылка на sourceforge [http://opennlp.sourceforge.net/models-1.5/] Вот ...
Индексировать содержимое файла PDF с помощью Apache Solr
Я использую Solrрасширение php [http://www.php.net/manual/en/book.solr.php]для взаимодействия с Apache Solr. Я индексирую данные из базы данных. Я также хотел проиндексировать содержимое внешних файлов (таких как PDF, PPTX). Логика для ...
Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]
Мне нужно сравнить и получить все визуальные различия в двух файлах PDF. Я знаю, что есть некоторые вопросы, связанные с этим при переполнении стека, но они не удовлетворяют мою потребность. В настоящее время я использую PDFBox для генерации ...
Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом: InputStream input = new FileInputStream("Introduction.pdf"); AutoDetectParser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(100 * ...