Результаты поиска по запросу "apache-tika"

0 ответов

Но тестирование без загрузки URL-адреса позволит выяснить, происходит ли это только при загрузке URL-адресов или также при загрузке локальных файлов. Если позже, то ваш код для воспроизведения эффекта будет меньше. Кстати, большая часть используемой вами памяти - это HashMap. Узнайте, где это используется. И обновить до последней версии.

ользуюPDF Box version 2.0.9 в моем приложении. Я должен разобрать большие файлы PDF из Интернета. Ниже приведен код, который я использую Класс MimeDetector @Getter @Setter class MimeTypeDetector { private ...

3 ответа

Я связался с документами из моего ответа.

ся, что вся документация, которую я могу найти, предполагает, что я могу извлечь только содержимое всего файла. Но мне нужно извлечь страницы по отдельности. Должен ли я написать свой собственный парсер для этого? Есть ли какой-то очевидный ...

1 ответ

Обратите внимание, что -1 - это неограниченное количество символов!

кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...

ТОП публикаций

5 ответов

Это может помочь.

кто-нибудь указать мне на учебник. Мой основной опыт работы с Solr - индексирование файлов CSV. Но я не могу найти какие-либо простые инструкции / учебник, чтобы сказать мне, что мне нужно сделать, чтобы индексировать PDF-файлы. Я видел ...

2 ответа

В моем случае:

ужно получить MediaType iana.org, а не application / zip или application / x-tika-msoffice для таких документов, как odt, ppt, pptx, xlsx и т. Д. Если вы посмотрите на mimetypes.xml, то есть элементы mimeType, состоящие из mime-типа iana.org и ...

1 ответ

как я могу определить фарси веб-страниц по Тика?

Мне нужен пример кода, который поможет мне обнаружить веб-страницы на фарси с помощью Apache Tika Toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Я скачал файлы jar apache.tika ...

3 ответа

невозможно настроить Tika1.2 с помощью solr4

Я пытаюсь использовать TikaEntityProcessor для индексации содержимого файла .html. Почему-то я не могу получить это правильно. Я проверил журнал ошибок и получил следующую ошибку. SEVERE: Full ...

2 ответа

Как индексировать текстовые файлы, используя apache solr

Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал тика Apache, я узнал, что тика Apache преобразует текст в формат XML, а затем отправляет его в solr. Но ...

5 ответов

Чтение содержимого из файлов, которые находятся внутри Zip-файла

Я пытаюсь создать простую Java-программу, которая читает и извлекает содержимое из файла (-ов) внутри zip-файла. Zip-файл содержит 3 файла (txt, pdf, docx). Мне нужно прочитать содержимое всех этих файлов, и я используюАпач Тикадля этого. Может ...

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

Я использую Apache POI, чтобы прочитать документ Excel. По меньшей мере, он может служить моей цели на данный момент. Но одна вещь, в которой я поражаюсь, это извлечение значения ячейки как HTML. У меня есть одна ячейка, в которой пользователь ...