Не совсем уверен, что это окончательный ответ, который вам понадобится, но когда мне приходилось делать это в прошлом, я преобразовал все «специальные» символы в именованный или числовой объект, чтобы они были защищены во время преобразования процесс.
нтересно, существуют ли какие-либо отношения или существующие алгоритмы, позволяющие преобразовывать национальные символы в эквивалентные латинские символы в кодовой странице UTF8?
Например (на польском языке):
Ą -> А
Ó -> O
ż -> я
ź -> з ...
Фраза, как: 'zażółć gęślą jażń'
преобразует в: «zazolc gesla jazn»
В настоящее время я использую массив конверсий для польского, но я ищу универсальное решение для всех языков, основанных на латинице.
Спасибо