urllib2 in Unicode lesen

Question

Jun 20, 2009, 05:46 AM

urllib2 in Unicode lesen

Ich muss den Inhalt einer Website speichern, die in einer beliebigen Sprache sein kann. Und ich muss in der Lage sein, den Inhalt nach einer Unicode-Zeichenfolge zu durchsuchen.

Ich habe etwas ausprobiert wie:

<code>import urllib2

req = urllib2.urlopen('http://lenta.ru')
content = req.read()
</code>

Der Inhalt ist ein Byte-Stream, sodass ich ihn nach einer Unicode-Zeichenfolge durchsuchen kann.

Ich brauche das irgendwie, wenn ich das tueurlopen und dann lesen, um den Zeichensatz aus den Headern zu verwenden, um den Inhalt zu dekodieren und ihn in UTF-8 zu kodieren.