Python + raspagem na web + raspagem: como obter os links para todos os filmes de uma página da IMDb?

Question

Mar 04, 2019, 12:23 PM

Python + raspagem na web + raspagem: como obter os links para todos os filmes de uma página da IMDb?

Tenho que raspar todos os filmes desta página da IMDb:https: //www.imdb.com/list/ls055386972.

minha abordagem é a primeira a raspar todos os valores de<a href="/title/tt0068646/?ref_=ttls_li_tt", ou seja, para extrair/title/tt0068646/?ref_=ttls_li_tt partes e adicione 'https: //www.imdb.co 'para preparar o URL completo do filme, ou seja,https: //www.imdb.com/title/tt0068646/? ref_ = ttls_li_tt. Mas sempre que eu estou dandoresponse.xpath('//h3[@class]/a[@href]').extract() está extraindo a parte desejada junto com o título do filme:[u'<a href="/title/tt0068646/?ref_=ttls_li_tt">The Godfather</a>', u'<a href="/title/tt0108052/?ref_=ttls_li_tt">Schindler\'s List</a>......]'Eu quero apenas o"/title/tt0068646/?ref_=ttls_li_tt" porção.

Como proceder