Python3 urllib image retreval

Question

Jun 08, 2012, 10:38 AM

Python3 urllib image retreval

Eu estou escrevendo um pequeno script Python para pegar imagens via imagens do google. Consegui fazer as coisas chegarem ao ponto em que tenho as urls das imagens que quero em uma lista útil. Agora, eu só preciso agarrá-los ...

para cada URL de imagem eu faço isso:

    print("Retrieving:{0}".format(sFinalImageURL))
    sExt = sFinalImageURL.split('.')[-1]
    #u = urllib.request.urlopen(sFinalImageURL)
    try:
        u = urllib.request.urlopen(sFinalImageURL)
    except:
        print("error: cannot retrieve image")
        continue
    raw_data = u.read()
    print("read {0} bytes".format(len(raw_data)))
    u.close()
    global sImagesFolder
    try:
        f = open("{0}/{1}_{2}.{3}".format(sImagesFolder,sImage,i,sExt),'wb')
        f.write(raw_data)
        f.close()
    except:
        print("couldn't write to {0}/{1}_{2}.{3}".format(sImagesFolder,sImage,i,sExt))
    print()

Aqui estão os problemas que estou enfrentando:

tentar abrir algumas das URLs me dá 403 mesmo que eu possa abrir as URLs diretamente no meu navegador. Então, há algo no cabeçalho da solicitação HTTP do qual o servidor de imagens não gosta ... alguma idéia?

Aqui está um pouco da saída:

Retrieving:http://upload.wikimedia.org/wikipedia/commons/thumb/4/43/Timba%2B1.jpg/220px-Timba%2B1.jpg

error: cannot retrieve image

Retrieving:http://upload.wikimedia.org/wikipedia/commons/thumb/2/26/YellowLabradorLooking_new.jpg/260px-YellowLabradorLooking_new.jpg

error: cannot retrieve image
Retrieving:http://1.bp.blogspot.com/-7SsJ1n3RdoA/Tf07NOgD5nI/AAAAAAAAABo/tl8qLLIU01Y/s1600/english-shepherd-dog-0003.jpg

read 11123 bytes

Retrieving:http://completedogfood.net/wp-content/uploads/2010/07/complete-dog-food.bmp
read 419630 bytes