Wie mache ich einen Python split () für Sprachen (wie Chinesisch), die kein Leerzeichen als Worttrennzeichen verwenden?

Question

Sep 26, 2010, 02:21 PM

Wie mache ich einen Python split () für Sprachen (wie Chinesisch), die kein Leerzeichen als Worttrennzeichen verwenden?

Ich möchte einen Satz in eine Liste von Wörtern aufteilen.

Für Englisch und europäische Sprachen ist dies einfach, benutze einfach split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Aber ich muss mich auch mit Sätzen in Sprachen wie Chinesisch befassen, die kein Leerzeichen als Worttrennzeichen verwenden.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

ffensichtlich funktioniert das nich

Wie teile ich einen solchen Satz in eine Liste von Wörtern auf?

AKTUALISIEREN

Bisher scheinen die Antworten darauf hinzudeuten, dass dies Verarbeitungstechniken in natürlicher Sprache erfordert und dass die Wortgrenzen auf Chinesisch mehrdeutig sind. Ich bin mir nicht sicher, warum ich das verstehe. Die Wortgrenzen im Chinesischen scheinen mir sehr genau zu sein. Jedes chinesische Wort / Zeichen hat einen entsprechenden Unicode und wird auf dem Bildschirm als separates Wort / Zeichen angezeigt.

So woher kommt die Mehrdeutigkeit. Wie Sie in meiner Python-Konsolenausgabe sehen können, hat Python kein Problem damit, festzustellen, dass mein Beispielsatz aus 5 Zeichen besteht:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

So hat Python offensichtlich kein Problem damit, die Wort- / Zeichengrenzen zu bestimmen. Ich brauche nur diese Wörter / Zeichen in einer Liste.

Antworten auf die Frage(16)

Top Fragen

0 die antwort

OpenCL - Sind Arbeitsgruppenachsen austauschbar?

0 die antwort

Android: Anbieterinformationen für com.facebook.wakizashi.provider.PlatformProvider @ konnten nicht gefunden werd

0 die antwort

Drehen Sie das Bild bei Berührung im / gegen den Uhrzeigersinn

0 die antwort

Python: Öffne Thunderbird, um eine neue Mail mit der angehängten Datei zu schreiben

0 die antwort

Warum unterscheiden sich SELECT-Ergebnisse zwischen mysql und sqlite?

Du bist sehr aktiv! Es ist großartig!

Wie mache ich einen Python split () für Sprachen (wie Chinesisch), die kein Leerzeichen als Worttrennzeichen verwenden?

Antworten auf die Frage(16)

Ihre Antwort auf die Frage

Top Fragen