Python: alguma maneira de executar essa divisão "híbrida" () em seqüências multilíngues (por exemplo, chinês e inglês)?
Eu tenho seqüências de caracteres multilíngües que consistem em dois idiomas que usam espaço em branco como separador de palavras (inglês, francês, etc.) e idiomas que não usam (chinês, japonês, coreano).
Dada essa sequência, desejo separar a parte em inglês / francês / etc em palavras usando espaço em branco como separador e separar a parte em chinês / japonês / coreano em caracteres individuais.
E eu quero colocar todos esses componentes separados em uma lista.
Alguns exemplos provavelmente deixariam isso claro:
Caso 1: String somente em inglês. Este caso é fácil:
>>> "I love Python".split()
['I', 'love', 'Python']
Caso 2: String apenas em chinês:
>>> list(u"我爱蟒蛇")
[u'\u6211', u'\u7231', u'\u87d2', u'\u86c7']
Nesse caso, posso transformar a string em uma lista de caracteres chineses. Mas, na lista, estou recebendo representações unicode:
[u'\u6211', u'\u7231', u'\u87d2', u'\u86c7']
Como faço para exibir os caracteres reais em vez do unicode? Algo como:
['我', '爱', '蟒', '蛇']
??
Caso 3: Uma mistura de inglês e chinês:
Quero transformar uma sequência de entrada como
"我爱Python"
e transforma em uma lista como esta:
['我', '爱', 'Python']
É possível fazer algo assim?