¿Cómo hacer un Python split () en idiomas (como el chino) que no usan espacios en blanco como separador de palabras?

Quiero dividir una oración en una lista de palabras.

Para los idiomas inglés y europeo esto es fácil, solo use split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Pero también necesito lidiar con oraciones en idiomas como el chino que no usan espacios en blanco como separador de palabras.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

Obviamente eso no funciona.

¿Cómo divido una oración así en una lista de palabras?

ACTUALIZAR:

Hasta ahora, las respuestas parecen sugerir que esto requiere técnicas de procesamiento del lenguaje natural y que los límites de las palabras en chino son ambiguos. No estoy seguro de entender por qué. Las palabras límites en chino me parecen muy definidas. Cada palabra / carácter chino tiene un código Unicode correspondiente y se muestra en la pantalla como una palabra / carácter separado.

Entonces, ¿de dónde viene la ambigüedad? Como puede ver en la salida de mi consola Python, Python no tiene problemas para decir que mi oración de ejemplo consta de 5 caracteres:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

Entonces, obviamente, Python no tiene problemas para decir los límites de palabra / carácter. Solo necesito esas palabras / caracteres en una lista.

Respuestas a la pregunta(8)

Su respuesta a la pregunta