Rompe palabras en idiomas sin espacios entre palabras (por ejemplo, asiáticos)?

Question

Oct 22, 2009, 08:26 AM

wordbreaker cjk php full-text-search tokenize

Rompe palabras en idiomas sin espacios entre palabras (por ejemplo, asiáticos)?

Me gustaría que la búsqueda de texto completo de MySQL funcione con el texto en japonés y chino, así como en cualquier otro idioma. El problema es que estos idiomas y probablemente otros no tienen normalmente espacios en blanco entre las palabras. La búsqueda no es útil cuando debe escribir la misma oración que aparece en el texto.

No puedo simplemente poner un espacio entre cada personaje porque el inglés también debe funcionar. Me gustaría resolver este problema con PHP o MySQL.

¿Puedo configurar MySQL para reconocer caracteres que deberían ser sus propias unidades de indexación? ¿Hay un módulo de PHP que pueda reconocer estos caracteres para que yo pueda tirar espacios alrededor de ellos para el índice?

Actualizar

Una solución parcial:

$string_with_spaces =
  preg_replace( "/[".json_decode('"\u4e00"')."-".json_decode('"\uface"')."]/",
  " $0 ", $string_without_spaces );

Esto hace que una clase de personaje esté al menos en algunos de los personajes que necesito tratar especialmente. Probablemente debería mencionar, es aceptable munge el texto indexado.

¿Alguien sabe todos los rangos de caracteres que necesitaría para insertar espacios?

Además, ¿debe haber una forma mejor y portátil de representar a esos personajes en PHP? El código fuente en Unicode Literal no es ideal; No reconoceré a todos los personajes; Es posible que no se reproduzcan en todas las máquinas que tengo que usar.