Doctest scheitert an Unicode-führenden u
Ich schreibe einen Doctest für eine Funktion, die eine Liste mit tokenisierten Wörtern ausgibt.
r'''
>>> s = "This is a tokenized sentence s\u00f3"
>>> tokenizer.tokenize(s0)
['This', 'is', 'a', 'tokenized', 'sentence', 'só']
'''
Using Python3.4 Mein Test besteht ohne Probleme.
Using Python2.7 Ich bekomme
Expected:
['This', 'is', 'a', 'tokenized', 'sentence', 'só']
Got:
[u'This', u'is', u'a', u'tokenized', u'sentence', u's\xf3']
Mein Code muss auf Python3.4 und Python2.7 funktionieren. Wie kann ich dieses Problem lösen?