Obtener el valor de los atributos href en todas las etiquetas <a> en un archivo html con Python
Estoy creando una aplicación en Python, y necesito obtener la URL de todos los enlaces en una página web. Ya tengo una función que usa urllib para descargar el archivo html de la web y transformarlo en una lista de cadenas con readlines ().
Actualmente tengo este código que usa expresiones regulares (no soy muy bueno en eso) para buscar enlaces en cada línea:
for line in lines:
result = re.match ('/href="(.*)"/iU', line)
print result
Esto no funciona, ya que solo imprime "Ninguno" para cada línea en el archivo, pero estoy seguro de que al menos hay 3 enlaces en el archivo que estoy abriendo.
¿Puede alguien darme una pista sobre esto?
Gracias por adelantad