Como faço para salvar o arquivo html de origem com o Apache Nutch

Sou novo nos mecanismos de pesquisa e nos rastreadores da web. Agora eu quero armazenar todas as páginas originais em um determinado site como arquivos html, mas com o Apache Nutch eu só posso obter os arquivos de banco de dados binários. Como obtenho os arquivos html originais com o Nutch?

Nutch apóia isso? Se não, que outras ferramentas posso usar para atingir meu objetivo (as ferramentas que suportam o rastreamento distribuído são melhores).

questionAnswers(5)

yourAnswerToTheQuestion