Por que o UTF-8 usa mais de um byte para representar alguns caracteres?

Question

Aug 21, 2011, 06:44 AM

Por que o UTF-8 usa mais de um byte para representar alguns caracteres?

Recentemente, passei por umaartig na codificação de caracteres. Estou preocupado com um certo ponto mencionado lá.

Na primeira figura, o autor mostra os caracteres, seus pontos de código em vários conjuntos de caracteres e como eles são codificados em vários formatos de codificação. Por exemplo, o ponto de código é éE9. DentroISO-8859-1 codificando é representado comoE9. DentroUTF-16 é representado como00 E9. Mas emUTF-8 é representado usando 2 bytes,C3 A9.

Minha pergunta é por que isso é necessário? Pode ser representado com 1 byte. Por que dois bytes são usados? Você poderia me avisar, por favor