Jak konwertuje się ciąg zakodowany w utf-8 z bajtów na znaki, w jaki sposób komputer wie, gdzie kończy się znak?

Question

Mar 28, 2013, 06:39 PM

Jak konwertuje się ciąg zakodowany w utf-8 z bajtów na znaki, w jaki sposób komputer wie, gdzie kończy się znak?

Podano ciąg Unicode zakodowany w UTF-8, który jest tylko bajtem w pamięci.

Jeśli komputer chce przekonwertować te bajty na odpowiadające im punkty kodowe Unicode (liczby), jak może wiedzieć, gdzie kończy się jeden znak, a zaczyna inny? Niektóre znaki są reprezentowane przez 1 bajt, inne do 6 bajtów. Więc jeśli masz

00111101 10111001

Może to reprezentować 2 znaki, lub 1. W jaki sposób komputer decyduje, który z nich ma zinterpretować go poprawnie? Czy istnieje jakaś konwencja, z której możemy wiedzieć od pierwszego bajtu, ile bajtów używa bieżący znak lub coś takiego?