Woher weiß der Computer, wo ein Zeichen endet, wenn er eine utf-8-codierte Zeichenfolge von Bytes in Zeichen konvertiert?

Question

Mar 28, 2013, 06:39 PM

Woher weiß der Computer, wo ein Zeichen endet, wenn er eine utf-8-codierte Zeichenfolge von Bytes in Zeichen konvertiert?

Bei einer Unicode-Zeichenfolge, die in UTF-8 codiert ist und nur Bytes im Speicher enthält.

Wenn ein Computer diese Bytes in die entsprechenden Unicode-Codepunkte (Zahlen) konvertieren möchte, wie kann er wissen, wo ein Zeichen endet und ein anderes beginnt? Einige Zeichen werden durch 1 Byte dargestellt, andere durch bis zu 6 Byte. Also, wenn Sie haben

00111101 10111001

Dies können 2 Zeichen sein oder 1. Wie entscheidet der Computer, welche Zeichen er richtig interpretiert? Gibt es eine Konvention, nach der wir aus dem ersten Byte wissen können, wie viele Bytes das aktuelle Zeichen verwendet oder so?