Spider um site e retorne apenas URLs

Question

May 10, 2010, 06:37 PM

Spider um site e retorne apenas URLs

Estou procurando uma maneira de pseudo-aranha em um site. A chave é que eu realmente não quero o conteúdo, mas uma simples lista de URIs. Posso me aproximar razoavelmente dessa idéia comWget usando o--spider opção, mas ao canalizar essa saída através de umgrep, Não consigo encontrar a mágica certa para fazê-la funcionar:

wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'

ogrep O filtro parece não ter absolutamente nenhum efeito sobre owget resultado. Eu entendi algo errado ou há outra ferramenta que eu deveria tentar mais voltada para fornecer esse tipo de conjunto de resultados limitado?

ATUALIZAR

Acabei de descobrir offline que, por padrão,wget escreve para stderr. Eu senti falta disso nas páginas de manual (na verdade, ainda não o encontrei se estiver lá). Depois de canalizar o retorno ao stdout, cheguei mais perto do que eu precisava:

wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'

Eu ainda estaria interessado em outros / melhores meios para fazer esse tipo de coisa, se houver algum.

questionAnswers(4)

Perguntas populares

0 a resposta

Existe algo semelhante ao mini-mvc-profiler for Jav

0 a resposta

wpf combobox com caixa de seleção - selecteditem

0 a resposta

MongoDB consulta várias coleções de uma vez

0 a resposta

Normais por vértice do ruído perli

0 a resposta

Problema de ponteiro de função de membro com métodos de biblioteca padrão

Você é muito ativo! É ótimo!

Spider um site e retorne apenas URLs

questionAnswers(4)

yourAnswerToTheQuestion

Perguntas populares