Как сделать Python split () на языках (таких как китайский), которые не используют пробелы в качестве разделителя слов?
Я хочу разбить предложение на список слов.
Для английского и европейского языков это просто, просто используйте split ()
>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']
Но мне также нужно иметь дело с предложениями на таких языках, как китайский, которые не используют пробелы в качестве разделителя слов.
>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']
Очевидно, что это не работает.
Как мне разбить такое предложение на список слов?
ОБНОВИТЬ:
Пока что ответы, похоже, предполагают, что для этого требуются методы обработки естественного языка и что границы слова в китайском языке неоднозначны. Я не уверен, что понимаю почему. Границы слова в китайском языке кажутся мне очень определенными. Каждое китайское слово / символ имеет соответствующий юникод и отображается на экране как отдельное слово / символ.
Так откуда же возникает двусмысленность? Как вы можете видеть в выводе моей консоли Python, Python без проблем сообщает, что мое примерное предложение состоит из 5 символов:
这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50
Поэтому, очевидно, у Python нет проблем с указанием границ слова / символа. Мне просто нужны эти слова / символы в списке.