Результаты поиска по запросу "apache-tika"
Нет никакого способа отличить CSV от TXT, кроме как по имени файла!
дал.csv используя файл Excel, и я написал следующий код, используя Apache Tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...
Но тестирование без загрузки URL-адреса позволит выяснить, происходит ли это только при загрузке URL-адресов или также при загрузке локальных файлов. Если позже, то ваш код для воспроизведения эффекта будет меньше. Кстати, большая часть используемой вами памяти - это HashMap. Узнайте, где это используется. И обновить до последней версии.
ользуюPDF Box version 2.0.9 в моем приложении. Я должен разобрать большие файлы PDF из Интернета. Ниже приведен код, который я использую Класс MimeDetector @Getter @Setter class MimeTypeDetector { private ...
Пули PDF появляются как вопросительные знаки при разборе Apache Tika в Java
Я анализирую PDF-файлы, используя Apache Tika (tika-app-1.3) с этим кодом:
Правильное использование Apache Tika MediaType
Я хочу использовать класс MediaType APache Tika для сравнения mediaTypes.Сначала я использую Tika для обнаружения MediaType. Затем я хочу начать действие в с...
Apache Tika извлекает отсканированные файлы PDF
У меня проблемы с использованием Apache TIKA (версия 1.10). У меня есть несколько PDF-файлов, которые просто отсканированы. Это означает, что каждая страница...
Невозможно извлечь отсканированный PDF с помощью TesseractOCRConfig Apache Tika
Мой PDF-файл содержит отсканированные изображения, и я хочу извлечь из него текст.Что я пробовал: я пытался с AutoDetectParsers, но без вывода.Я следовал реш...
в..
, чтобы извлечь все содержимое тела HTML, кроме верхнего и нижнего колонтитула, но я получаю исключениеorg.xml.sax.SAXException: пространство именhttp://www....