Исправлено, ура!

Question

Mar 15, 2011, 06:10 PM

unicode java character-class character-properties regex

Исправлено, ура!

есть много вопросов и ответов о StackOverflow, которые предполагают, что «буква» может быть найдена в регулярном выражении[a-zA-Z], Однако в Юникоде есть еще много символов, которые большинство людей воспримут как букву (все греческие буквы, кириллические ... и многие другие).Юникод определяет много блоков каждая из которых может иметь «буквы».

Определение Javaопределяет классы Posix для таких вещей, как буквенные символы, но это указано для работы только с US-ASCII. Предопределенные классы символов определяют слова, состоящие из[a-zA-Z_0-9], что также исключает много букв.

Так как же правильно сопоставить строки Unicode? Есть ли какая-то другая библиотека, которая понимает это правильно?

Исправлено, ура!

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Исправлено, ура!

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы