Czy mogą istnieć 2 różne kodowania UTF-8 dla tego samego znaku?

Question

May 18, 2012, 01:06 PM

Czy mogą istnieć 2 różne kodowania UTF-8 dla tego samego znaku?

Piszę aplikację, która potrzebuje transkodować swoje dane wejściowe z UTF-8 na ISO-8859-1 (Latin 1).

Wszystko działa dobrze, z wyjątkiem tego, że czasami otrzymuję dziwne kodowanie dla niektórych znaków umlaut. Na przykład Latin 1 E z 2 kropkami (0xEB) zwykle występuje jako UTF-8 0xC3 0xAB, ale czasami również jako 0xC3 0x83 0xC2 0xAB.

Stało się to kilka razy z różnych źródeł i zauważając, że pierwsze i ostatnie znaki pasują do tego, czego oczekuję, czy może istnieć zasada kodowania, o której moja biblioteka nie wie?