Quais são todos os caracteres em branco do espaço em japonês?

Preciso dividir uma sequência e extrair palavras separadas por caracteres de espaço em branco. A fonte pode estar em inglês ou japonês. Os caracteres em branco em inglês incluem tabulação e espaço, e o texto em japonês também os utiliza. (IIRC, todos os conjuntos de caracteres japoneses amplamente usados são superconjuntos de US-ASCII.)

Portanto, o conjunto de caracteres que preciso usar para dividir minha string inclui espaço e guia ASCII normais.

Mas, em japonês, há outro caractere de espaço, comumente chamado de 'espaço de largura total'. De acordo com o utilitário Visualizador de caracteres do meu Mac, este é o "ESPAÇO IDEOGRÁFICO" U + 3000. Isso é (geralmente) o que resulta quando um usuário pressiona a barra de espaço enquanto digita no modo de entrada em japonês.

Existem outros personagens que eu preciso considerar?

Estou processando dados textuais enviados por usuários que foram instruídos a "separar entradas com espaços". No entanto, os usuários estão usando uma grande variedade de sistemas operacionais de computadores e celulares para enviar esses textos. Já vimos que os usuários podem não saber se estão no modo de entrada em japonês ou inglês ao inserir esses dados.

Além disso, o comportamento da tecla de espaço difere entre plataformas e aplicativos, mesmo no modo japonês (por exemplo, o Windows 7 insere um espaço ideográfico, mas o iOS insere um espaço ASCII).

Então, o que eu quero é basicamente "o conjunto de todos os caracteres que se parecem visualmente com um espaço e podem ser gerados quando o usuário pressiona a tecla espaço ou a tecla tab, pois muitos usuários não sabem a diferença entre um espaço e uma guia, em Japonês e / ou inglês ".

Existe alguma resposta autorizada para essa pergunta?

questionAnswers(2)

yourAnswerToTheQuestion