em plataforma Unicode específica em Python 2.7

Question

Mar 30, 2012, 12:56 AM

em plataforma Unicode específica em Python 2.7

Ubuntu 11.10:

$ python
Python 2.7.2+ (default, Oct  4 2011, 20:03:08)
[GCC 4.6.1] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> x = u'\U0001f44d'
>>> len(x)
1
>>> ord(x[0])
128077

Windows 7:

Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> x = u'\U0001f44d'
>>> len(x)
2
>>> ord(x[0])
55357

minha experiência com o Ubuntu é com o intérprete padrão na distribuição. No Windows 7, baixei e instalei a versão recomendada vinculada a python.org. Eu não compilei nenhum dele

A natureza da diferença é clara para mim. (No Ubuntu, a sequência é uma sequência de pontos de código; no Windows 7, uma sequência de unidades de código UTF-16.) Minhas perguntas são:

Por que estou observando essa diferença de comportamento? É devido à forma como o intérprete é construído ou a uma diferença nas bibliotecas do sistema dependentes?xiste alguma maneira de configurar o comportamento do intérprete do Windows 7 para concordar com o Ubunt que eu posso fazer no Eclipse PyDev (meu gol)Se precisar reconstruir, existem intérpretes pré-construídos do Windows 7 que se comportam como o Ubuntu acima de uma fonte confiáve Existem soluções alternativas para esse problema, além de contar manualmente os substitutos emunicode strings apenas no Windows (blech)? Isso justifica um relatório de erro? Existe alguma chance de que esse relatório de bug seja resolvido em 2.7?