Проверка Mimetype с использованием банок Tika
Я занимаюсь разработкой стандартного Java-процесса. Я пытаюсь определить mimetype вложения файлов с помощью Tika Jars. Я использую файлы Тика 1.4 Jar.
Мой код выглядит
Parser parser= new AutoDetectParser();
InputStream stream = new FileInputStream(fileAttachment);
int writerHandler =-1;
ContentHandler contentHandler= new BodyContentHandler(writerHandler);
Metadata metadata= new Metadata();
parser.parse(stream, contentHandler, metadata, new ParseContext());
String mimeType = metadata.get(Metadata.CONTENT_TYPE);
logger.debug("File Attachment: "+fileattachment.getName()+" MimeType is: "+mimeType);
Этот код не работает должным образом для документов Office 03 и 07.
Во время бега из затмения я получаю правильные миметипы.
Я создаю JAR-файл и запускаю из команды, давая неправильные MIME-типы.
out put from command
------------
File Attachment: Testpdf.pdf MimeType is: application/pdf
File Attachment: Testpdf.tif MimeType is: image/tiff
File Attachment: Testpdf.xlsx MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.xltx MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.pptx MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.docx MimeType is: application/x-tika-ooxml
File Attachment: Testpdf.xls MimeType is: application/zip
File Attachment: Testpdf.doc MimeType is: application/x-tika-msoffice
File Attachment: Testpdf.dot MimeType is: application/x-tika-msoffice
File Attachment: Testpdf.ppt MimeType is: application/x-tika-msoffice
File Attachment: Testpdf.xlt MimeType is: application/vnd.ms-excel
Я пробовал с OfficePraser, OOXMLParser. Это не работает. Я пробовал с файлами Тика 0,9 банку. mimeTypes приходят правильно, но если какое-либо из моих вложенных файлов является «редактируемым pdf», мой пакетный процесс умирает (например, «exit (0);» в коде). Если у меня есть новые банки tika, то они дают неправильные mimeTypes.
Пожалуйста, помогите мне в этом. Заранее спасибо.
CVSR Сарма