код нельзя слепо копировать).
у сканер с Python, используя BeautifulSoup, и все шло гладко, пока я не наткнулся на этот сайт:
Я получаю содержимое с библиотекой запросов:
r = requests.get('http://www.elnorte.ec/')
content = r.content
Если я сделаю печать переменной содержимого в этот момент, все испанские специальные символы будут работать нормально. Однако, как только я пытаюсь передать переменную содержимого в BeautifulSoup, все это портится:
soup = BeautifulSoup(content)
print(soup)
...
<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&month=08&day=27&modid=203" title="1009 artÃculos en este dÃa">
...
По-видимому, он поглощает все испанские специальные символы (акценты и еще много чего). Я попытался сделать content.decode ('utf-8'), content.decode ('latin-1'), также попытался возиться с параметром fromEncoding для BeautifulSoup, установив его в fromEncoding = 'utf-8' и fromEncoding = 'латиница-1', но все еще без игры в кости.
Любые указатели будут высоко оценены.