Como faço para salvar o arquivo html de origem com o Apache Nutch

Question

Apr 04, 2012, 10:06 AM

Como faço para salvar o arquivo html de origem com o Apache Nutch

Sou novo nos mecanismos de pesquisa e nos rastreadores da web. Agora eu quero armazenar todas as páginas originais em um determinado site como arquivos html, mas com o Apache Nutch eu só posso obter os arquivos de banco de dados binários. Como obtenho os arquivos html originais com o Nutch?

Nutch apóia isso? Se não, que outras ferramentas posso usar para atingir meu objetivo (as ferramentas que suportam o rastreamento distribuído são melhores).