urllib2 ler para Unicode

Question

Jun 20, 2009, 05:46 AM

urllib2 ler para Unicode

Eu preciso armazenar o conteúdo de um site que pode estar em qualquer idioma. E eu preciso ser capaz de pesquisar o conteúdo de uma string Unicode.

Eu tentei algo como:

<code>import urllib2

req = urllib2.urlopen('http://lenta.ru')
content = req.read()
</code>

O conteúdo é um fluxo de bytes, então eu posso procurar por uma string Unicode.

Eu preciso de alguma maneira que quando eu façourlopen e depois ler para usar o conjunto de caracteres dos cabeçalhos para decodificar o conteúdo e codificá-lo em UTF-8.

questionAnswers(2)

Perguntas populares

0 a resposta

Por que o complemento de doi

0 a resposta

Como mesclar uma ramificação em outra com opção de substituição no git

0 a resposta

Como posso definir módulos dependentes em módulos AMD do TypeScript

0 a resposta

Como devo fazer referência sn.exe no script msbuild?

0 a resposta

Existe algum erro com document.write ()?

Você é muito ativo! É ótimo!

urllib2 ler para Unicode

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares