Проверка Mimetype с использованием банок Tika

Я занимаюсь разработкой стандартного Java-процесса. Я пытаюсь определить mimetype вложения файлов с помощью Tika Jars. Я использую файлы Тика 1.4 Jar.

Мой код выглядит

Parser parser= new AutoDetectParser();
InputStream stream = new FileInputStream(fileAttachment);
int writerHandler =-1;
ContentHandler contentHandler= new BodyContentHandler(writerHandler);
Metadata metadata= new Metadata();
parser.parse(stream, contentHandler, metadata, new ParseContext());
String mimeType = metadata.get(Metadata.CONTENT_TYPE);
logger.debug("File Attachment: "+fileattachment.getName()+" MimeType is: "+mimeType);

Этот код не работает должным образом для документов Office 03 и 07.

Во время бега из затмения я получаю правильные миметипы.

Я создаю JAR-файл и запускаю из команды, давая неправильные MIME-типы.

out put from command
------------
File Attachment: Testpdf.pdf  MimeType is: application/pdf
File Attachment: Testpdf.tif  MimeType is: image/tiff
File Attachment: Testpdf.xlsx  MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.xltx  MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.pptx  MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.docx  MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.xls  MimeType is: application/zip
File Attachment: Testpdf.doc  MimeType is: application/x-tika-msoffice
File Attachment: Testpdf.dot  MimeType is: application/x-tika-msoffice
File Attachment: Testpdf.ppt  MimeType is: application/x-tika-msoffice
File Attachment: Testpdf.xlt  MimeType is: application/vnd.ms-excel

Я пробовал с OfficePraser, OOXMLParser. Это не работает. Я пробовал с файлами Тика 0,9 банку. mimeTypes приходят правильно, но если какое-либо из моих вложенных файлов является «редактируемым pdf», мой пакетный процесс умирает (например, «exit (0);» в коде). Если у меня есть новые банки tika, то они дают неправильные mimeTypes.

Пожалуйста, помогите мне в этом. Заранее спасибо.

CVSR Сарма

Ответы на вопрос(1)

Ваш ответ на вопрос