Spider um site e retorne apenas URLs
Estou procurando uma maneira de pseudo-aranha em um site. A chave é que eu realmente não quero o conteúdo, mas uma simples lista de URIs. Posso me aproximar razoavelmente dessa idéia comWget usando o--spider
opção, mas ao canalizar essa saída através de umgrep
, Não consigo encontrar a mágica certa para fazê-la funcionar:
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
ogrep
O filtro parece não ter absolutamente nenhum efeito sobre owget
resultado. Eu entendi algo errado ou há outra ferramenta que eu deveria tentar mais voltada para fornecer esse tipo de conjunto de resultados limitado?
ATUALIZAR
Acabei de descobrir offline que, por padrão,wget
escreve para stderr. Eu senti falta disso nas páginas de manual (na verdade, ainda não o encontrei se estiver lá). Depois de canalizar o retorno ao stdout, cheguei mais perto do que eu precisava:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
Eu ainda estaria interessado em outros / melhores meios para fazer esse tipo de coisa, se houver algum.