Baixe imagens do site

Question

May 04, 2012, 06:45 AM

Baixe imagens do site

Eu quero ter uma cópia local de uma galeria em um site. A galeria mostra as imagens em domain.com/id/1 (o id aumenta em incrementos de 1) e a imagem é armazenada em pics.domain.com/pics/original/image.format. A linha exata que as imagens têm no HTML são

<div id="bigwall" class="right"> 
    <img border=0 src='http://pics.domain.com/pics/original/image.jpg' name='pic' alt='' style='top: 0px; left: 0px; margin-top: 50px; height: 85%;'> 
</div>

Então eu quero escrever um script que faça algo assim (em pseudocódigo):

for(id = 1; id <= 151468; id++) {
     page = "http://domain.com/id/" + id.toString();
     src = returnSrc(); // Searches the html for img with name='pic' and saves the image location as a string
     getImg(); // Downloads the file named in src
}

Eu não tenho certeza exatamente como fazer isso. Eu suponho que eu poderia fazer isso no bash, usando o wget para baixar o html e então procurar o html manualmentehttp://pics.domain.com/pics/original/. então use wget novamente para salvar o arquivo, remova o arquivo html, incremente o id e repita. A única coisa é que eu não sou bom em manipular strings, então se alguém poderia me dizer como procurar o url e substituir os * s pelo nome e formato do arquivo, eu deveria ser capaz de fazer o resto funcionar. Ou se meu método for estúpido e você tiver um melhor, por favor, compartilhe.