Beautiful Soup 4 find_all не находит ссылок, которые находит Beautiful Soup 3
Я заметил действительно раздражающую ошибку: BeautifulSoup4 (пакет:bs4
) часто находит меньше тегов, чем предыдущая версия (пакет:BeautifulSoup
).
Вот воспроизводимый экземпляр этой проблемы:
import requests
import bs4
import BeautifulSoup
r = requests.get('http://wordpress.org/download/release-archive/')
s4 = bs4.BeautifulSoup(r.text)
s3 = BeautifulSoup.BeautifulSoup(r.text)
print 'With BeautifulSoup 4 : {}'.format(len(s4.findAll('a')))
print 'With BeautifulSoup 3 : {}'.format(len(s3.findAll('a')))
Выход:
With BeautifulSoup 4 : 557
With BeautifulSoup 3 : 1701
Разница не незначительна, как вы можете видеть.
Вот точные версии модулей на случай, если кому-то интересно:
In [20]: bs4.__version__
Out[20]: '4.2.1'
In [21]: BeautifulSoup.__version__
Out[21]: '3.2.1'