Как сделать Python split () на языках (таких как китайский), которые не используют пробелы в качестве разделителя слов?

Я хочу разбить предложение на список слов.

Для английского и европейского языков это просто, просто используйте split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Но мне также нужно иметь дело с предложениями на таких языках, как китайский, которые не используют пробелы в качестве разделителя слов.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

Очевидно, что это не работает.

Как мне разбить такое предложение на список слов?

ОБНОВИТЬ:

Пока что ответы, похоже, предполагают, что для этого требуются методы обработки естественного языка и что границы слова в китайском языке неоднозначны. Я не уверен, что понимаю почему. Границы слова в китайском языке кажутся мне очень определенными. Каждое китайское слово / символ имеет соответствующий юникод и отображается на экране как отдельное слово / символ.

Так откуда же возникает двусмысленность? Как вы можете видеть в выводе моей консоли Python, Python без проблем сообщает, что мое примерное предложение состоит из 5 символов:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

Поэтому, очевидно, у Python нет проблем с указанием границ слова / символа. Мне просто нужны эти слова / символы в списке.

Ответы на вопрос(8)

Ваш ответ на вопрос