Baixe imagens do site
Eu quero ter uma cópia local de uma galeria em um site. A galeria mostra as imagens em domain.com/id/1 (o id aumenta em incrementos de 1) e a imagem é armazenada em pics.domain.com/pics/original/image.format. A linha exata que as imagens têm no HTML são
<div id="bigwall" class="right">
<img border=0 src='http://pics.domain.com/pics/original/image.jpg' name='pic' alt='' style='top: 0px; left: 0px; margin-top: 50px; height: 85%;'>
</div>
Então eu quero escrever um script que faça algo assim (em pseudocódigo):
for(id = 1; id <= 151468; id++) {
page = "http://domain.com/id/" + id.toString();
src = returnSrc(); // Searches the html for img with name='pic' and saves the image location as a string
getImg(); // Downloads the file named in src
}
Eu não tenho certeza exatamente como fazer isso. Eu suponho que eu poderia fazer isso no bash, usando o wget para baixar o html e então procurar o html manualmentehttp://pics.domain.com/pics/original/. então use wget novamente para salvar o arquivo, remova o arquivo html, incremente o id e repita. A única coisa é que eu não sou bom em manipular strings, então se alguém poderia me dizer como procurar o url e substituir os * s pelo nome e formato do arquivo, eu deveria ser capaz de fazer o resto funcionar. Ou se meu método for estúpido e você tiver um melhor, por favor, compartilhe.