Как сделать Python split () на языках (таких как китайский), которые не используют пробелы в качестве разделителя слов?

Question

Sep 26, 2010, 02:21 PM

Как сделать Python split () на языках (таких как китайский), которые не используют пробелы в качестве разделителя слов?

Я хочу разбить предложение на список слов.

Для английского и европейского языков это просто, просто используйте split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Но мне также нужно иметь дело с предложениями на таких языках, как китайский, которые не используют пробелы в качестве разделителя слов.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

Очевидно, что это не работает.

Как мне разбить такое предложение на список слов?

ОБНОВИТЬ:

Пока что ответы, похоже, предполагают, что для этого требуются методы обработки естественного языка и что границы слова в китайском языке неоднозначны. Я не уверен, что понимаю почему. Границы слова в китайском языке кажутся мне очень определенными. Каждое китайское слово / символ имеет соответствующий юникод и отображается на экране как отдельное слово / символ.

Так откуда же возникает двусмысленность? Как вы можете видеть в выводе моей консоли Python, Python без проблем сообщает, что мое примерное предложение состоит из 5 символов:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

Поэтому, очевидно, у Python нет проблем с указанием границ слова / символа. Мне просто нужны эти слова / символы в списке.

Как сделать Python split () на языках (таких как китайский), которые не используют пробелы в качестве разделителя слов?

Ответы на вопрос(8)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как сделать Python split () на языках (таких как китайский), которые не используют пробелы в качестве разделителя слов?

Ответы на вопрос(8)

Ваш ответ на вопрос

Популярные вопросы