Quebra de palavra em idiomas sem espaços entre palavras (por exemplo, asiático)?

Question

Oct 22, 2009, 08:26 AM

wordbreaker full-text-search tokenize php cjk

Quebra de palavra em idiomas sem espaços entre palavras (por exemplo, asiático)?

Eu gostaria de fazer o trabalho de pesquisa de texto completo do MySQL com texto em japonês e chinês, assim como qualquer outro idioma. O problema é que essas linguagens e provavelmente outras normalmente não possuem espaços em branco entre as palavras. A pesquisa não é útil quando você deve digitar a mesma frase que está no texto.

Eu não posso apenas colocar um espaço entre todos os personagens porque o inglês também deve funcionar. Eu gostaria de resolver este problema com PHP ou MySQL.

Posso configurar o MySQL para reconhecer caracteres que devem ser suas próprias unidades de indexação? Existe um módulo PHP que possa reconhecer esses caracteres para que eu possa apenas lançar espaços ao redor deles para o índice?

Atualizar

Uma solução parcial:

$string_with_spaces =
  preg_replace( "/[".json_decode('"\u4e00"')."-".json_decode('"\uface"')."]/",
  " $0 ", $string_without_spaces );

Isso faz com que uma classe de personagem, pelo menos, alguns dos personagens que eu preciso tratar especialmente. Eu provavelmente deveria mencionar, é aceitável para o texto indexado.

Alguém sabe todos os intervalos de caracteres que eu preciso para inserir espaços ao redor?

Além disso, deve haver uma maneira melhor e portátil de representar esses caracteres no PHP? O código fonte em Literal Unicode não é ideal; Não vou reconhecer todos os personagens; eles podem não renderizar em todas as máquinas que eu tenho que usar.