Wie funktioniert die UTF-8-Codierung mit variabler Breite?

Question

Oct 09, 2009, 03:02 PM

multibyte utf-8 character-encoding unicode

Wie funktioniert die UTF-8-Codierung mit variabler Breite?

Der Unicode-Standard enthält genügend Codepunkte, sodass Sie 4 Byte benötigen, um alle zu speichern. Das macht die UTF-32-Codierung. Die UTF-8-Codierung drückt diese jedoch irgendwie in viel kleinere Räume, indem sie eine sogenannte "Codierung mit variabler Breite" verwendet.

Tatsächlich können die ersten 127 Zeichen von US-ASCII in nur einem Byte dargestellt werden, was genau wie echtes ASCII aussieht, sodass Sie eine Menge ASCII-Text so interpretieren können, als wäre er UTF-8, ohne etwas dagegen zu tun. Ordentlicher Trick. Wie funktioniert es?

Ich werde hier meine eigene Frage stellen und beantworten, weil ich nur ein bisschen gelesen habe, um es herauszufinden, und ich dachte, es könnte jemand anderem Zeit sparen. Und vielleicht kann mich jemand korrigieren, wenn ich etwas falsch verstanden habe.