Como fazer uma divisão Python () em idiomas (como chinês) que não usam espaço em branco como separador de palavras?

Question

Sep 26, 2010, 02:21 PM

Como fazer uma divisão Python () em idiomas (como chinês) que não usam espaço em branco como separador de palavras?

Quero dividir uma frase em uma lista de palavras.

Para idiomas inglês e europeu, isso é fácil, basta usar split ()

>>> "This is a sentence.".split()
['This', 'is', 'a', 'sentence.']

Mas também preciso lidar com frases em idiomas como o chinês que não usam espaço em branco como separador de palavras.

>>> u"这是一个句子".split()
[u'\u8fd9\u662f\u4e00\u4e2a\u53e5\u5b50']

Obviamente isso não funciona.

Como faço para dividir essa frase em uma lista de palavras?

ATUALIZAR:

Até agora, as respostas parecem sugerir que isso requer técnicas de processamento de linguagem natural e que os limites das palavras em chinês são ambíguos. Não sei se entendi o porquê. Os limites da palavra em chinês parecem muito definidos para mim. Cada palavra / caractere chinês possui um unicode correspondente e é exibida na tela como uma palavra / caractere separado.

Então, de onde vem a ambiguidade? Como você pode ver na saída do console do Python, o Python não tem nenhum problema em dizer que minha frase de exemplo é composta de 5 caracteres:

这 - u8fd9
是 - u662f
一 - u4e00
个 - u4e2a
句 - u53e5
子 - u5b50

Então, obviamente, o Python não tem problemas em dizer os limites da palavra / caractere. Eu só preciso dessas palavras / caracteres em uma lista.

questionAnswers(8)

Perguntas populares

0 a resposta

Inserção em massa SQL com parâmetro FIRSTROW ignora a seguinte linha

0 a resposta

Por que o IE emite respostas aleatórias do XHR 408/12152 usando o jQuery post?

0 a resposta

Como obter o caminho do script congelado em execução

0 a resposta

Encontrar o número da coluna e valorizar o segundo maior valor em uma linha

0 a resposta

Obter argumentos da linha de comando em spring-boot: run

Você é muito ativo! É ótimo!

Como fazer uma divisão Python () em idiomas (como chinês) que não usam espaço em branco como separador de palavras?

questionAnswers(8)

yourAnswerToTheQuestion

Perguntas populares