Python + raspagem na web + raspagem: como obter os links para todos os filmes de uma página da IMDb?
Tenho que raspar todos os filmes desta página da IMDb:https: //www.imdb.com/list/ls055386972.
minha abordagem é a primeira a raspar todos os valores de<a href="/title/tt0068646/?ref_=ttls_li_tt"
, ou seja, para extrair/title/tt0068646/?ref_=ttls_li_tt
partes e adicione 'https: //www.imdb.co 'para preparar o URL completo do filme, ou seja,https: //www.imdb.com/title/tt0068646/? ref_ = ttls_li_tt. Mas sempre que eu estou dandoresponse.xpath('//h3[@class]/a[@href]').extract()
está extraindo a parte desejada junto com o título do filme:[u'<a href="/title/tt0068646/?ref_=ttls_li_tt">The Godfather</a>', u'<a href="/title/tt0108052/?ref_=ttls_li_tt">Schindler\'s List</a>......]'
Eu quero apenas o"/title/tt0068646/?ref_=ttls_li_tt"
porção.
Como proceder