urllib2 lee a unicode
Necesito almacenar el contenido de un sitio que puede estar en cualquier idioma. Y necesito poder buscar en el contenido una cadena Unicode.
He intentado algo como:
<code>import urllib2 req = urllib2.urlopen('http://lenta.ru') content = req.read() </code>
El contenido es un flujo de bytes, por lo que puedo buscar una cadena Unicode.
Necesito de alguna manera que cuando lo haga.urlopen
y luego lea para usar el conjunto de caracteres de los encabezados para decodificar el contenido y codificarlo en UTF-8.