Как читать или анализировать MHTML (.mht) файлы в Java
Мне нужно добытьсодержание из большинства известных файлов документов, таких как:
PDFHTMLдокумент / документация и т. д.Для большинства этих форматов файлов я планирую использовать:
Но на данный моментTika
не поддерживает файлы MHTML (* .mht) .. (http://en.wikipedia.org/wiki/MHTML ) Есть несколько примеров в C # (http://www.codeproject.com/KB/files/MhtBuilder.aspx ) но я не нашел ни одного в Java.
Я попытался открыть файл * .mht в 7Zip, и это не удалось ... Хотя WinZip смог распаковать файл в изображения и текст (CSS, HTML, Script) как текстовые и двоичные файлы ...
Согласно странице MSDN (http://msdn.microsoft.com/en-us/library/aa767785%28VS.85%29.aspx#compress_content ) иcode project
Страница, которую я упоминал ранее ... MHT файлы используют сжатие GZip ....
Попытка распаковать в Java приводит к следующим исключениям: Сjava.uti.zip.GZIPInputStream
java.io.IOException: Not in GZIP format
at java.util.zip.GZIPInputStream.readHeader(Unknown Source)
at java.util.zip.GZIPInputStream.<init>(Unknown Source)
at java.util.zip.GZIPInputStream.<init>(Unknown Source)
at GZipTest.main(GZipTest.java:16)
И сjava.util.zip.ZipFile
java.util.zip.ZipException: error in opening zip file
at java.util.zip.ZipFile.open(Native Method)
at java.util.zip.ZipFile.<init>(Unknown Source)
at java.util.zip.ZipFile.<init>(Unknown Source)
at GZipTest.main(GZipTest.java:21)
Пожалуйста, предложите, как распаковать его ....
Спасибо....