Leyendo el archivo UTF-8 con codecs en IronPython
Tengo un archivo .csv codificado en UTF-8, que contiene símbolos latinos y cirílicos.
<code>;F1;F2;abcdefg3;F200 ;ABSOLUTE;NOMINAL;NOMINAL;NOMINAL o1;1;USA;Новосибирск;1223 </code>
Estoy intentando ejecutar el siguiente script en IronPython 2.7.1:
<code>import codecs f = codecs.open(r"file.csv", "rb", "utf-8") f.next() </code>
Durante la ejecución de f.next () ocurre una excepción:
<code>Traceback (most recent call last): File "c:\Program Files\Microsoft Visual Studio 10.0\Common7\IDE\Extensions\Microsoft\Python Tools for Visual Studio\1.1\visualstudio_py_repl.py", line 492, in run_file_as_main code.Execute(self.exec_mod) File "<string>", line 4, in <module> File "C:\Program Files\IronPython 2.7.1\Lib\codecs.py", line 684, in next return self.reader.next() File "C:\Program Files\IronPython 2.7.1\Lib\codecs.py", line 615, in next line = self.readline() File "C:\Program Files\IronPython 2.7.1\Lib\codecs.py", line 530, in readline data = self.read(readsize, firstline=True) File "C:\Program Files\IronPython 2.7.1\Lib\codecs.py", line 477, in read newchars, decodedbytes = self.decode(data, self.errors) UnicodeEncodeError: ('unknown', '\x00', 0, 1, '') </code>
Al mismo tiempo, en CPython 2.7 el script funciona correctamente. También en el script IronPython 2.7.1 siguiente funciona bien:
<code>import codecs f = codecs.open(r"file.csv", "rb", "utf-8") f.readlines() </code>
¿Alguien sabe qué puede causar tan extraño comportamiento?