Como fazer uma divisão Python () em idiomas (como chinês) que não usam espaço em branco como separador de palavras?

Quero dividir uma frase em uma lista de palavras.

Para idiomas inglês e europeu, isso é fácil, basta usar split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Mas também preciso lidar com frases em idiomas como o chinês que não usam espaço em branco como separador de palavras.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

Obviamente isso não funciona.

Como faço para dividir essa frase em uma lista de palavras?

ATUALIZAR:

Até agora, as respostas parecem sugerir que isso requer técnicas de processamento de linguagem natural e que os limites das palavras em chinês são ambíguos. Não sei se entendi o porquê. Os limites da palavra em chinês parecem muito definidos para mim. Cada palavra / caractere chinês possui um unicode correspondente e é exibida na tela como uma palavra / caractere separado.

Então, de onde vem a ambiguidade? Como você pode ver na saída do console do Python, o Python não tem nenhum problema em dizer que minha frase de exemplo é composta de 5 caracteres:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

Então, obviamente, o Python não tem problemas em dizer os limites da palavra / caractere. Eu só preciso dessas palavras / caracteres em uma lista.

questionAnswers(8)

yourAnswerToTheQuestion