JavaScript-Strings außerhalb des BMP

BMP istBasic Multilingual Plane

GemäßJavaScript: die guten Teile:

JavaScript wurde zu einer Zeit erstellt, als Unicode ein 16-Bit-Zeichensatz war, daher sind alle Zeichen in JavaScript 16 Bit breit.

Dies lässt mich glauben, dass JavaScript UCS-2 (nicht UTF-16!) Verwendet und nur Zeichen bis zu U + FFFF verarbeiten kann.

Weitere Untersuchungen bestätigen dies:

> String.fromCharCode(0x20001);

DasfromCharCodeie @ -Methode scheint nur die niedrigsten 16 Bits zu verwenden, wenn das Unicode-Zeichen zurückgegeben wird. Der Versuch, U + 20001 (einheitliches CJK-Ideogramm 20001) zu erhalten, gibt stattdessen U + 0001 zurück.

Frage: Ist es überhaupt möglich, Post-BMP-Zeichen in JavaScript zu verarbeiten?

31.07.2011: Schieben Sie zwölf von Unicode Support Shootout:as Gute, das Schlechte & das (meistens) Hässlic deckt diesbezügliche Fragen recht gut ab:

Antworten auf die Frage(10)

Ihre Antwort auf die Frage