Результаты поиска по запросу "apache-tika"

0 ответов

Нет никакого способа отличить CSV от TXT, кроме как по имени файла!

дал.csv используя файл Excel, и я написал следующий код, используя Apache Tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...

0 ответов

Но тестирование без загрузки URL-адреса позволит выяснить, происходит ли это только при загрузке URL-адресов или также при загрузке локальных файлов. Если позже, то ваш код для воспроизведения эффекта будет меньше. Кстати, большая часть используемой вами памяти - это HashMap. Узнайте, где это используется. И обновить до последней версии.

ользуюPDF Box version 2.0.9 в моем приложении. Я должен разобрать большие файлы PDF из Интернета. Ниже приведен код, который я использую Класс MimeDetector @Getter @Setter class MimeTypeDetector { private ...

1 ответ

Значение ячейки в формате HTML из Excel с использованием Apache POI

ТОП публикаций

1 ответ

Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java

Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом:

1 ответ

Индексировать содержимое файла PDF с помощью Apache Solr

1 ответ

Проверка Mimetype с использованием банок Tika

1 ответ

Правильное использование Apache Tika MediaType

Я хочу использовать класс MediaType APache Tika для сравнения mediaTypes.Сначала я использую Tika для обнаружения MediaType. Затем я хочу начать действие в с...

1 ответ

Apache Tika извлекает отсканированные файлы PDF

У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница...

1 ответ

Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika

Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.Что я пробовал: я пытался с AutoDetectParsers, но без вывода.Я следовал реш...

1 ответ

в..

, чтобы извлечь все содержимое тела HTML, кроме верхнего и нижнего колонтитула, но я получаю исключениеorg.xml.sax.SAXException: пространство именhttp://www....