Problemas de codificación de Python y BeautifulSoup
Estoy escribiendo un rastreador con Python usando BeautifulSoup, y todo iba bien hasta que me encontré con este sitio:
Recibo los contenidos con la biblioteca de solicitudes:
r = requests.get('http://www.elnorte.ec/')
content = r.content
Si hago una impresión de la variable de contenido en ese punto, todos los caracteres especiales en español parecen estar funcionando bien. Sin embargo, una vez que trato de alimentar la variable de contenido a BeautifulSoup, todo se complica:
soup = BeautifulSoup(content)
print(soup)
...
<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&month=08&day=27&modid=203" title="1009 artÃculos en este dÃa">
...
Aparentemente está confundiendo todos los caracteres especiales españoles (acentos y demás). Intenté hacer content.decode ('utf-8'), content.decode ('latin-1'), también intenté jugar con el parámetro fromEncoding en BeautifulSoup, configurándolo en fromEncoding = 'utf-8' y fromEncoding = 'latin-1', pero aún no hay dados.
Cualquier puntero sería muy apreciado.