Python: Wie kann ich dieses "hybride" split () für mehrsprachige (z. B. chinesische und englische) Zeichenfolgen ausführen?

Question

Sep 27, 2010, 08:02 AM

Python: Wie kann ich dieses "hybride" split () für mehrsprachige (z. B. chinesische und englische) Zeichenfolgen ausführen?

Ich habe Zeichenfolgen, die mehrsprachig sind und sowohl aus Sprachen bestehen, die Leerzeichen als Worttrennzeichen verwenden (Englisch, Französisch usw.), als auch aus Sprachen, die dies nicht tun (Chinesisch, Japanisch, Koreanisch).

Bei einer solchen Zeichenfolge möchte ich den englischen / französischen / etc-Teil mit Leerzeichen als Trennzeichen in Wörter und den chinesischen / japanischen / koreanischen Teil in einzelne Zeichen unterteilen.

Und ich möchte alle diese getrennten Komponenten in eine Liste aufnehmen.

Einige Beispiele würden dies wahrscheinlich verdeutlichen:

Fall : Nur englische Zeichenfolge. Dieser Fall ist einfach:

>>> "I love Python".split()
['I', 'love', 'Python']

Case 2: Nur Chinesisch-Zeichenfolge:

>>> list(u"我爱蟒蛇")
[u'\u6211', u'\u7231', u'\u87d2', u'\u86c7']

In diesem Fall kann ich die Zeichenfolge in eine Liste chinesischer Zeichen umwandeln. Aber innerhalb der Liste erhalte ich Unicode-Darstellungen:

[u'\u6211', u'\u7231', u'\u87d2', u'\u86c7']

Wie kann ich dafür sorgen, dass die tatsächlichen Zeichen anstelle des Unicodes angezeigt werden? Etwas wie

['我', '爱', '蟒', '蛇']

??

Case 3: Eine Mischung aus Englisch und Chinesisch:

Ich möchte eine Eingabezeichenfolge wie @ dreh

"我爱Python"

und verwandelt es in eine Liste wie diese:

['我', '爱', 'Python']

Ist es möglich so etwas zu machen?

Antworten auf die Frage(10)

Top Fragen

0 die antwort

Ausführen einer Methode im UI-Thread aufgrund eines Ereignisses im Hintergrund-Thread

0 die antwort

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

0 die antwort

Rails hat Sitzungen mit activerecord @ getei

0 die antwort

java.lang.IllegalArgumentException: Ungültiges Zeichen (CR oder LF) in Methodenname gefunden

0 die antwort

MPI I / O, Mischung aus Einzel- und Mehrprozessausgabe

Du bist sehr aktiv! Es ist großartig!

Python: Wie kann ich dieses &quot;hybride&quot; split () für mehrsprachige (z. B. chinesische und englische) Zeichenfolgen ausführen?

Antworten auf die Frage(10)

Ihre Antwort auf die Frage

Top Fragen

Python: Wie kann ich dieses "hybride" split () für mehrsprachige (z. B. chinesische und englische) Zeichenfolgen ausführen?