Obtener el valor de los atributos href en todas las etiquetas <a> en un archivo html con Python

Question

Mar 22, 2009, 06:22 PM

Obtener el valor de los atributos href en todas las etiquetas <a> en un archivo html con Python

Estoy creando una aplicación en Python, y necesito obtener la URL de todos los enlaces en una página web. Ya tengo una función que usa urllib para descargar el archivo html de la web y transformarlo en una lista de cadenas con readlines ().

Actualmente tengo este código que usa expresiones regulares (no soy muy bueno en eso) para buscar enlaces en cada línea:

for line in lines:
    result = re.match ('/href="(.*)"/iU', line)
    print result

Esto no funciona, ya que solo imprime "Ninguno" para cada línea en el archivo, pero estoy seguro de que al menos hay 3 enlaces en el archivo que estoy abriendo.

¿Puede alguien darme una pista sobre esto?

Gracias por adelantad