Результаты поиска по запросу "apache-tika"
Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika
Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.Что я пробовал: я пытался с AutoDetectParsers, но без вывода.Я следовал реш...
в..
, чтобы извлечь все содержимое тела HTML, кроме верхнего и нижнего колонтитула, но я получаю исключениеorg.xml.sax.SAXException: пространство именhttp://www....
Как создать собственную модель с использованием OpenNLP?
я пытаюсьизвлекать сущностилюбитьИмена, Навыкииз документа с использованием OpenNLP Java API, ноэто не извлечение собственных имен, Я использую модель, доступную наopennlp ссылка на sourceforge [http://opennlp.sourceforge.net/models-1.5/] Вот ...
Нет никакого способа отличить CSV от TXT, кроме как по имени файла!
дал.csv используя файл Excel, и я написал следующий код, используя Apache Tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...
Но тестирование без загрузки URL-адреса позволит выяснить, происходит ли это только при загрузке URL-адресов или также при загрузке локальных файлов. Если позже, то ваш код для воспроизведения эффекта будет меньше. Кстати, большая часть используемой вами памяти - это HashMap. Узнайте, где это используется. И обновить до последней версии.
ользуюPDF Box version 2.0.9 в моем приложении. Я должен разобрать большие файлы PDF из Интернета. Ниже приведен код, который я использую Класс MimeDetector @Getter @Setter class MimeTypeDetector { private ...
Я связался с документами из моего ответа.
ся, что вся документация, которую я могу найти, предполагает, что я могу извлечь только содержимое всего файла. Но мне нужно извлечь страницы по отдельности. Должен ли я написать свой собственный парсер для этого? Есть ли какой-то очевидный ...
Обратите внимание, что -1 - это неограниченное количество символов!
кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata ...
Это может помочь.
кто-нибудь указать мне на учебник. Мой основной опыт работы с Solr - индексирование файлов CSV. Но я не могу найти какие-либо простые инструкции / учебник, чтобы сказать мне, что мне нужно сделать, чтобы индексировать PDF-файлы. Я видел ...
В моем случае:
ужно получить MediaType iana.org, а не application / zip или application / x-tika-msoffice для таких документов, как odt, ppt, pptx, xlsx и т. Д. Если вы посмотрите на mimetypes.xml, то есть элементы mimeType, состоящие из mime-типа iana.org и ...
как я могу определить фарси веб-страниц по Тика?
Мне нужен пример кода, который поможет мне обнаружить веб-страницы на фарси с помощью Apache Tika Toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Я скачал файлы jar apache.tika ...