Substituir códigos HTML por caracteres equivalentes em Java [duplicado]
Esta questão já tem uma resposta aqui:
Java: Como retirar as entidades de caracteres HTML em Java? 10 respostasAtualmente estou trabalhando na conversão de códigos HTML com caracteres equivalentes em java. Eu preciso converter o código abaixo para caracteres.
è - è
® - ®
& - &
ñ - ñ
& - &
Eu tentei usar o padrão regex
(&#x)([\\d|\\w]*)([\\d|\\w]*)([\\d|\\w]*)([\\d|\\w]*)(;)
Quando eu depurarmatcher.find()
me dátrue
mas o controle pula o loop onde eu escrevi o código para conversão. Não sei o que está acontecendo lá.
Além disso, existe alguma maneira de otimizar este regex?
Qualquer ajuda é apreciada.
Exceção
java.lang.NumberFormatException: For input string: "x26"
at java.lang.NumberFormatException.forInputString(Unknown Source)
at java.lang.Integer.parseInt(Unknown Source)
at java.lang.Integer.parseInt(Unknown Source)
at org.apache.commons.lang.Entities.unescape(Entities.java:683)
at org.apache.commons.lang.StringEscapeUtils.unescapeHtml(StringEscapeUtils.java:483)