Szeregowanie dodatkowych znaków Unicode w dokumentach XML za pomocą Java

Question

Aug 14, 2012, 02:28 PM

Szeregowanie dodatkowych znaków Unicode w dokumentach XML za pomocą Java

Usiłuję serializować dokumenty DOM za pomocą dodatkowych znaków Unicode, takich jak U + 1D49C (𝒜, kapitał skryptów matematycznych A). Tworzenie węzła z takim znakiem nie jest problemem (po prostu ustawiam wartość węzła na ekwiwalent UTF-16, „uD835 uDC9C”). Jednak podczas serializacji Xalan i XSLTC (z Transformerem) i Xerces (z LSSerializer) tworzą niepoprawne elementy, takie jak „& # 55349; & # 56476;” zamiast „& # 119964;”. Próbowałem parametru „normalize-characters” dla LSSerializer, ale nie jest on obsługiwany. Tylko Saxon robi to dobrze, bez użycia encji znakowej, gdy kodowanie jest unicode.

Nie mogę używać Saxona w praktyce (między innymi używam apletów Java i nie chcę ładować innego słoika), więc szukam rozwiązania z domyślnymi bibliotekami JDK. Czy można uzyskać poprawne dokumenty XML serializowane z dokumentu DOM za pomocą dodatkowych znaków Unicode?

[edytuj] Znalazłem kogoś innego, kto napotkał ten problem:http://www.dragishak.com/?p=131

[edit2] faktycznie, wydaje się, że działa z LSSerializer, gdy nie mam kserów w ścieżce klasy (użyta klasa to com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl). Nie działa z transformatorem i com.sun.org.apache.xalan.internal.xsltc.trax.TransformerFactoryImpl.