хороший совет, большое спасибо

Question

Jun 20, 2017, 11:00 AM

хороший совет, большое спасибо

я есть набор ссылок, таких как:

['http://www.nytimes.com/2016/12/31/us/politics/house-republicans-health-care-suit.html?partner=rss&amp;emc=rss" rel="standout"></atom:link>',
 'http://www.nytimes.com/2016/12/31/nyregion/bronx-murder-40th-precinct-police-residents.html</guid>',
 'http://www.nytimes.com/2016/12/30/movies/tyrus-wong-dies-bambi-disney.html?partner=rss&amp;emc=rss',
 'http://www.nytimes.com/2016/12/30/obituaries/among-deaths-in-2016-a-heavy-toll-in-pop-music.html</guid>',
 'http://www.nytimes.com/video/world/100000004830728/daybreak-around-the-world.html?partner=rss&amp;emc=rss']

Я пытаюсь перебрать их, чтобы удалить все, что идет послеhtml, Так что я:

cleanitems = []

for item in links:  
    cleanitems.append(re.sub(r'html(.*)', '', item))

Который возвращает:

['http://www.nytimes.com/2016/12/31/us/politics/house-republicans-health-care-suit.',
 'http://www.nytimes.com/2016/12/31/nyregion/bronx-murder-40th-precinct-police-residents.',
 'http://www.nytimes.com/2016/12/30/movies/tyrus-wong-dies-bambi-disney.',
 'http://www.nytimes.com/2016/12/30/obituaries/among-deaths-in-2016-a-heavy-toll-in-pop-music.',
 'http://www.nytimes.com/video/world/100000004830728/daybreak-around-the-world.]

Смущен тем, почему это включаетhtml в группе захвата. Спасибо за любую помощь.

хороший совет, большое спасибо

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

хороший совет, большое спасибо

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы