Wie mache ich einen Python split () für Sprachen (wie Chinesisch), die kein Leerzeichen als Worttrennzeichen verwenden?

Ich möchte einen Satz in eine Liste von Wörtern aufteilen.

Für Englisch und europäische Sprachen ist dies einfach, benutze einfach split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Aber ich muss mich auch mit Sätzen in Sprachen wie Chinesisch befassen, die kein Leerzeichen als Worttrennzeichen verwenden.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

ffensichtlich funktioniert das nich

Wie teile ich einen solchen Satz in eine Liste von Wörtern auf?

AKTUALISIEREN

Bisher scheinen die Antworten darauf hinzudeuten, dass dies Verarbeitungstechniken in natürlicher Sprache erfordert und dass die Wortgrenzen auf Chinesisch mehrdeutig sind. Ich bin mir nicht sicher, warum ich das verstehe. Die Wortgrenzen im Chinesischen scheinen mir sehr genau zu sein. Jedes chinesische Wort / Zeichen hat einen entsprechenden Unicode und wird auf dem Bildschirm als separates Wort / Zeichen angezeigt.

So woher kommt die Mehrdeutigkeit. Wie Sie in meiner Python-Konsolenausgabe sehen können, hat Python kein Problem damit, festzustellen, dass mein Beispielsatz aus 5 Zeichen besteht:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

So hat Python offensichtlich kein Problem damit, die Wort- / Zeichengrenzen zu bestimmen. Ich brauche nur diese Wörter / Zeichen in einer Liste.

Antworten auf die Frage(16)

Ihre Antwort auf die Frage