Por que o UTF-8 usa mais de um byte para representar alguns caracteres?
Recentemente, passei por umaartig na codificação de caracteres. Estou preocupado com um certo ponto mencionado lá.
Na primeira figura, o autor mostra os caracteres, seus pontos de código em vários conjuntos de caracteres e como eles são codificados em vários formatos de codificação. Por exemplo, o ponto de código é éE9
. DentroISO-8859-1
codificando é representado comoE9
. DentroUTF-16
é representado como00 E9
. Mas emUTF-8
é representado usando 2 bytes,C3 A9
.
Minha pergunta é por que isso é necessário? Pode ser representado com 1 byte. Por que dois bytes são usados? Você poderia me avisar, por favor