¿Cómo guardo el archivo html de origen con Apache Nutch?

Question

Apr 04, 2012, 10:06 AM

¿Cómo guardo el archivo html de origen con Apache Nutch?

Soy nuevo en los motores de búsqueda y rastreadores web. Ahora quiero almacenar todas las páginas originales en un sitio web particular como archivos html, pero con Apache Nutch solo puedo obtener los archivos de base de datos binarios. ¿Cómo consigo los archivos html originales con Nutch?

¿Nutch lo apoya? De lo contrario, ¿qué otras herramientas puedo usar para lograr mi objetivo? (Las herramientas que admiten el rastreo distribuido son mejores).