Qual rastreador da Web para extrair e analisar dados de cerca de mil sites

Question

Oct 31, 2009, 09:11 AM

Qual rastreador da Web para extrair e analisar dados de cerca de mil sites

Estou tentando rastrear cerca de milhares de sites, dos quais estou interessado apenas no conteúdo html.

Então eu transformo o HTML em XML para ser analisado com o Xpath para extrair o conteúdo específico no qual estou interessado.

Eu tenho usado o crawler Heritrix 2.0 por alguns meses, mas me deparei com enormes problemas de desempenho, memória e estabilidade (o Heritrix trava todos os dias e nenhuma tentativa com parâmetros da JVM para limitar o uso da memória foi bem-sucedida).

De suas experiências no campo, qual rastreador você usaria para extrair e analisar o conteúdo de milhares de fontes?