Может ли быть 2 разных кодировки UTF-8 для одного и того же символа?

Question

May 18, 2012, 01:25 PM

Может ли быть 2 разных кодировки UTF-8 для одного и того же символа?

Я пишу приложение, которое должно перекодировать свой ввод из UTF-8 в ISO-8859-1 (латиница 1).

Все работает отлично, за исключением того, что иногда я получаю странные кодировки для некоторых умлаутовых символов. Например, латинская 1 E с 2 точками (0xEB) обычно обозначается как UTF-8 0xC3 0xAB, но иногда также как 0xC3 0x83 0xC2 0xAB.

Это происходило несколько раз из разных источников, и, учитывая, что первый и последний символы соответствуют ожидаемым, может ли существовать правило кодирования, о котором моя библиотека не знает?

Может ли быть 2 разных кодировки UTF-8 для одного и того же символа?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Может ли быть 2 разных кодировки UTF-8 для одного и того же символа?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы