Como rastrear sites rapidamente

Estou desenvolvendo um sistema que precisa rastrear o conteúdo de alguns portais e verificar alterações todas as noites (por exemplo, faça o download e indexe novos sites que foram adicionados durante o dia). O conteúdo desses portais será indexado para pesquisa. O problema está em rastrear novamente esses portais - o primeiro rastreamento do portal leva muito tempo (exemplos de portais: www.onet.pl, www.bankier.pl, www.gazeta.pl)e quero rastrear novamente mais rápido (o mais rápido possível) por exemplo, verificando a data da modificação, mas eu useiwget para baixar www.bankier.pl, mas, em resposta, reclama que não há cabeçalho de última modificação. Existe alguma maneira de rastrear novamente tantos sites? Também tentei usar o Nutch, mas o script para re-garra parece não funcionar corretamente - ou também depende desses cabeçalhos (modificados pela última vez). Talvez haja uma ferramenta, rastreador (como Nutch ou algo assim) que possa atualizar sites já baixados adicionando um novo?

Atenciosamente, Wojtek

questionAnswers(2)

yourAnswerToTheQuestion