BeautifulSoup: extrair dados img alt

Question

Jul 28, 2012, 01:07 AM

BeautifulSoup: extrair dados img alt

Tenho seguindo html de imagem e estou tentando analisar informações que estão em alt. Atualmente sou capaz de extrair imagens com sucesso.

html (o que eu atualmente analiso

<img class="rslp-p" alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver" src="http://i.ebayimg.com/00/$(KGrHqZ,!j!E5dyh0jTpBO(3yE7Wg!~~_26.JPG?set_id=89040003C1" itemprop="image" />

Eu construo o nome da imagem a partir do que eu analiso:

Código atual

def main(url, output_folder="~/images"):
         """Download the images at url"""
         soup = bs(urlopen(url))
         parsed = list(urlparse.urlparse(url))
         count = 0
         for image in soup.findAll("img"):
             print image
             count += 1
             print count
             print "Image: %(src)s" % image
             image_url = urlparse.urljoin(url, image['src'])
             filename = image["src"].split("/")[-1].split("?")[0].replace("$",'').replace(".JPG",".jpg").replace("~~_26",str(count)).lstrip("(")
             parsed[2] = image["src"]
             outpath = os.path.join(output_folder, filename)
             urlretrieve(image_url, outpath)

O que eu gostaria de fazer é extrair é

alt="Sony Cyber-shot DSC-W570 16.1 MP Digital Camera - Silver"

Também quero usar dados alt como o nome do arquivo quando eu extraio a imagem.

questionAnswers(1)

Perguntas populares

0 a resposta

Qual é a melhor maneira de depurar o Typoscript no TYPO3 CM

0 a resposta

Por que Func <T, bool> em vez de Predicado <T>?

0 a resposta

sed: Extrai o número da versão da string

0 a resposta

Como desserializar um array JSON usando o Gson

0 a resposta

Como obter dados de e-mail brutos com a extensão imap?

Você é muito ativo! É ótimo!

BeautifulSoup: extrair dados img alt

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares