Заменить HTML-коды эквивалентными символами в Java [дубликаты]
На этот вопрос уже есть ответ здесь:
Java: Как удалить символы HTML в Java? 10 ответовВ настоящее время я работаю над преобразованием HTML-кодов с эквивалентными символами в Java. Мне нужно преобразовать приведенный ниже код в символы.
è - è
® - ®
& - &
ñ - ñ
& - &
Я пытался использовать шаблон регулярных выражений
(&#x)([\\d|\\w]*)([\\d|\\w]*)([\\d|\\w]*)([\\d|\\w]*)(;)
Когда я отлаживаю,matcher.find()
дает мнеtrue
но элемент управления пропускает цикл, в котором я написал код для преобразования. Не знаю, что там происходит.
Кроме того, есть ли способ оптимизировать это регулярное выражение?
Любая помощь приветствуется.
исключение
java.lang.NumberFormatException: For input string: "x26"
at java.lang.NumberFormatException.forInputString(Unknown Source)
at java.lang.Integer.parseInt(Unknown Source)
at java.lang.Integer.parseInt(Unknown Source)
at org.apache.commons.lang.Entities.unescape(Entities.java:683)
at org.apache.commons.lang.StringEscapeUtils.unescapeHtml(StringEscapeUtils.java:483)