padrão regex em python para analisar tags de título HTML

Question

Nov 18, 2013, 11:52 AM

padrão regex em python para analisar tags de título HTML

Eu estou aprendendo a usar tanto ore módulo e ourllib módulo em python e tentando escrever um simples web scraper. Aqui está o código que eu escrevi para raspar apenas o título dos sites:

#!/usr/bin/python

import urllib
import re

urls=["http://google.com","https://facebook.com","http://reddit.com"]

i=0

these_regex="<title>(.+?)</title>"
pattern=re.compile(these_regex)

while(i<len(urls)):
        htmlfile=urllib.urlopen(urls[i])
        htmltext=htmlfile.read()
        titles=re.findall(pattern,htmltext)
        print titles
        i+=1

Isso dá a saída correta para o Google e o Reddit, mas não para o Facebook - assim:

['Google']
[]
['reddit: the front page of the internet']

Isso porque, achei que na página do Facebooktitle tag é a seguinte:<title id="pageTitle">. Para acomodar o adicionalid=Modifiquei othese_regex variável da seguinte forma:these_regex="<title.+?>(.+?)</title>". Mas isso dá a seguinte saída:

[]
['Welcome to Facebook \xe2\x80\x94 Log in, sign up or learn more']
[]

Como eu combinaria os dois para que eu possa levar em conta quaisquer parâmetros adicionais passados dentro dotitle tag?

questionAnswers(3)

Perguntas populares

0 a resposta

Como faço para imprimir a contagem de correspondências exclusivas com o grep?

0 a resposta

Ao armazenar um datetime no servidor sql (tipo datetime), em que formato ele é armazenad

0 a resposta

Windows Phone 7.1 SDK Alarm

0 a resposta

Devise + Omniauth - Como passar parâmetros extras?

0 a resposta

Esta é uma publicação segura de objeto?

Você é muito ativo! É ótimo!

padrão regex em python para analisar tags de título HTML

questionAnswers(3)

yourAnswerToTheQuestion

Perguntas populares