Python: Wie kann ich dieses "hybride" split () für mehrsprachige (z. B. chinesische und englische) Zeichenfolgen ausführen?

Ich habe Zeichenfolgen, die mehrsprachig sind und sowohl aus Sprachen bestehen, die Leerzeichen als Worttrennzeichen verwenden (Englisch, Französisch usw.), als auch aus Sprachen, die dies nicht tun (Chinesisch, Japanisch, Koreanisch).

Bei einer solchen Zeichenfolge möchte ich den englischen / französischen / etc-Teil mit Leerzeichen als Trennzeichen in Wörter und den chinesischen / japanischen / koreanischen Teil in einzelne Zeichen unterteilen.

Und ich möchte alle diese getrennten Komponenten in eine Liste aufnehmen.

Einige Beispiele würden dies wahrscheinlich verdeutlichen:

Fall : Nur englische Zeichenfolge. Dieser Fall ist einfach:

>>> "I love Python".split()
['I', 'love', 'Python']

Case 2: Nur Chinesisch-Zeichenfolge:

>>> list(u"我爱蟒蛇")
[u'\u6211', u'\u7231', u'\u87d2', u'\u86c7']

In diesem Fall kann ich die Zeichenfolge in eine Liste chinesischer Zeichen umwandeln. Aber innerhalb der Liste erhalte ich Unicode-Darstellungen:

[u'\u6211', u'\u7231', u'\u87d2', u'\u86c7']

Wie kann ich dafür sorgen, dass die tatsächlichen Zeichen anstelle des Unicodes angezeigt werden? Etwas wie

['我', '爱', '蟒', '蛇']

??

Case 3: Eine Mischung aus Englisch und Chinesisch:

Ich möchte eine Eingabezeichenfolge wie @ dreh

"我爱Python"

und verwandelt es in eine Liste wie diese:

['我', '爱', 'Python']

Ist es möglich so etwas zu machen?

Antworten auf die Frage(10)

Ihre Antwort auf die Frage