Mantenha caracteres de entidade de caracteres numéricos, como `& # 10; & # 13; `ao analisar XML em Java
Estou analisando XML que contém caracteres de entidade de caracteres numéricos, como (mas não limitado a) < >
(retorno de carro de avanço de linha <>) em Java. Ao analisar, anexo o conteúdo de texto dos nós a um StringBuffer para gravá-lo posteriormente em um arquivo de texto.
No entanto, esses caracteres unicode são resolvidos ou transformados em novas linhas / espaços em branco quando eu escrevo a String em um arquivo ou imprimo.
Como posso manter os símbolos originais de caracteres de entidade de caracteres numéricos ao iterar sobre nós de um arquivo XML em Java e armazenar os nós de conteúdo de texto em uma String?
Exemplo de arquivo xml de demonstração:
<?xml version="1.0" encoding="UTF-8"?>
<ABCD version="2">
<Field attributeWithChar="A string followed by special symbols " />
</ABCD>
Código Java de exemplo. Ele carrega o XML, itera sobre os nós e coleta o conteúdo de texto de cada nó em um StringBuffer. Após o término da iteração, ele grava o StringBuffer no console e também em um arquivo (mas nenhum
) símbolos.
Qual seria uma maneira de manter esses símbolos ao armazená-los em uma String? Podes ajudar-me, por favor? Obrigado.
public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException, TransformerException {
DocumentBuilderFactory documentFactory = DocumentBuilderFactory.newInstance();
Document document = null;
DocumentBuilder documentBuilder = documentFactory.newDocumentBuilder();
document = documentBuilder.parse(new File("path/to/demo.xml"));
StringBuilder sb = new StringBuilder();
NodeList nodeList = document.getElementsByTagName("*");
for (int i = 0; i < nodeList.getLength(); i++) {
Node node = nodeList.item(i);
if (node.getNodeType() == Node.ELEMENT_NODE) {
NamedNodeMap nnp = node.getAttributes();
for (int j = 0; j < nnp.getLength(); j++) {
sb.append(nnp.item(j).getTextContent());
}
}
}
System.out.println(sb.toString());
try (Writer writer = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream("path/to/demo_output.xml"), "UTF-8"))) {
writer.write(sb.toString());
}
}