Qué rastreador web para extraer y analizar datos de aproximadamente mil sitios web

Question

Oct 31, 2009, 09:11 AM

Qué rastreador web para extraer y analizar datos de aproximadamente mil sitios web

Estoy tratando de rastrear alrededor de mil sitios web, de los cuales solo me interesa el contenido html.

Luego transformo el HTML en XML para analizarlo con Xpath para extraer el contenido específico en el que estoy interesado.

He estado usando el rastreador Heritrix 2.0 durante algunos meses, pero tuve un gran problema de rendimiento, memoria y estabilidad (Heritrix se bloquea casi todos los días y ningún intento con los parámetros de JVM para limitar el uso de la memoria fue exitoso).

De sus experiencias en el campo, ¿qué rastreador usaría para extraer y analizar contenido de miles de fuentes?