Как работает UTF-8 «кодирование с переменной шириной»?

В стандарте Unicode достаточно кодов, чтобы хранить их все 4 байта. Тот'Что делает кодировка UTF-32. Тем не менее, кодировка UTF-8 каким-то образом сжимает их в гораздо меньшие пространства, используя то, что называетсякодирование переменной ширины ".

Фактически, ему удается представить первые 127 символов US-ASCII всего одним байтом, который выглядит точно так же, как настоящий ASCII, так что вы можете интерпретировать много текста ascii, как если бы это был UTF-8, ничего не делая с ним. Аккуратный трюк. Так как это работает?

Я собираюсь задать и ответить на мой собственный вопрос здесь, потому что я просто немного прочитал, чтобы понять это, и я подумал, что это может спасти кого-то еще некоторое время. Плюс, может, кто-нибудь поправит меня, если яу меня что-то не так.

Ответы на вопрос(3)

Ваш ответ на вопрос