Kann es 2 verschiedene UTF-8-Codierungen für dasselbe Zeichen geben?

Question

May 18, 2012, 01:06 PM

Kann es 2 verschiedene UTF-8-Codierungen für dasselbe Zeichen geben?

Ich schreibe eine Anwendung, die ihre Eingabe von UTF-8 in ISO-8859-1 (Latin 1) umcodieren muss.

Alles funktioniert einwandfrei, außer ich bekomme manchmal seltsame Kodierungen für einige Umlaute. Zum Beispiel wird das lateinische 1 E mit 2 Punkten (0xEB) normalerweise als UTF-8 0xC3 0xAB, manchmal aber auch als 0xC3 0x83 0xC2 0xAB geliefert.

Dies geschah mehrmals aus verschiedenen Quellen, wobei festgestellt wurde, dass das erste und das letzte Zeichen meinen Erwartungen entsprechen. Kann es eine Kodierungsregel geben, die meine Bibliothek nicht kennt?