urllib2 ler para Unicode
Eu preciso armazenar o conteúdo de um site que pode estar em qualquer idioma. E eu preciso ser capaz de pesquisar o conteúdo de uma string Unicode.
Eu tentei algo como:
<code>import urllib2 req = urllib2.urlopen('http://lenta.ru') content = req.read() </code>
O conteúdo é um fluxo de bytes, então eu posso procurar por uma string Unicode.
Eu preciso de alguma maneira que quando eu façourlopen
e depois ler para usar o conjunto de caracteres dos cabeçalhos para decodificar o conteúdo e codificá-lo em UTF-8.