Как читать или анализировать MHTML (.mht) файлы в Java

Мне нужно добытьсодержание из большинства известных файлов документов, таких как:

PDFHTMLдокумент / документация и т. д.

Для большинства этих форматов файлов я планирую использовать:

http://tika.apache.org/

Но на данный моментTika не поддерживает файлы MHTML (* .mht) .. (http://en.wikipedia.org/wiki/MHTML ) Есть несколько примеров в C # (http://www.codeproject.com/KB/files/MhtBuilder.aspx ) но я не нашел ни одного в Java.

Я попытался открыть файл * .mht в 7Zip, и это не удалось ... Хотя WinZip смог распаковать файл в изображения и текст (CSS, HTML, Script) как текстовые и двоичные файлы ...

Согласно странице MSDN (http://msdn.microsoft.com/en-us/library/aa767785%28VS.85%29.aspx#compress_content ) иcode project Страница, которую я упоминал ранее ... MHT файлы используют сжатие GZip ....

Попытка распаковать в Java приводит к следующим исключениям: Сjava.uti.zip.GZIPInputStream

java.io.IOException: Not in GZIP format
at java.util.zip.GZIPInputStream.readHeader(Unknown Source)
at java.util.zip.GZIPInputStream.<init>(Unknown Source)
at java.util.zip.GZIPInputStream.<init>(Unknown Source)
at GZipTest.main(GZipTest.java:16)

И сjava.util.zip.ZipFile

 java.util.zip.ZipException: error in opening zip file
at java.util.zip.ZipFile.open(Native Method)
at java.util.zip.ZipFile.<init>(Unknown Source)
at java.util.zip.ZipFile.<init>(Unknown Source)
at GZipTest.main(GZipTest.java:21)

Пожалуйста, предложите, как распаковать его ....

Спасибо....

Ответы на вопрос(5)

Ваш ответ на вопрос