¿Cómo hacer un Python split () en idiomas (como el chino) que no usan espacios en blanco como separador de palabras?

Question

Sep 26, 2010, 02:21 PM

¿Cómo hacer un Python split () en idiomas (como el chino) que no usan espacios en blanco como separador de palabras?

Quiero dividir una oración en una lista de palabras.

Para los idiomas inglés y europeo esto es fácil, solo use split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Pero también necesito lidiar con oraciones en idiomas como el chino que no usan espacios en blanco como separador de palabras.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

Obviamente eso no funciona.

¿Cómo divido una oración así en una lista de palabras?

ACTUALIZAR:

Hasta ahora, las respuestas parecen sugerir que esto requiere técnicas de procesamiento del lenguaje natural y que los límites de las palabras en chino son ambiguos. No estoy seguro de entender por qué. Las palabras límites en chino me parecen muy definidas. Cada palabra / carácter chino tiene un código Unicode correspondiente y se muestra en la pantalla como una palabra / carácter separado.

Entonces, ¿de dónde viene la ambigüedad? Como puede ver en la salida de mi consola Python, Python no tiene problemas para decir que mi oración de ejemplo consta de 5 caracteres:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

Entonces, obviamente, Python no tiene problemas para decir los límites de palabra / carácter. Solo necesito esas palabras / caracteres en una lista.

Respuestas a la pregunta(8)

Preguntas populares

0 la respuesta

jquery encuentra el siguiente elemento con clase

0 la respuesta

¿Qué es haslayout?

0 la respuesta

Accediendo a variables de una forma dinámica.

0 la respuesta

Cómo obtener la ruta del directorio de ejecución en java [duplicado]

0 la respuesta

La secuencia de comandos del cargador de archivos no funciona correctamente

¡Eres muy activo! ¡Es genial!

¿Cómo hacer un Python split () en idiomas (como el chino) que no usan espacios en blanco como separador de palabras?

Respuestas a la pregunta(8)

Su respuesta a la pregunta

Preguntas populares