remover caracteres não-UTF-8 do xml com codificação declarada = utf-8 - Java
Eu tenho que lidar com este cenário em Java:
Estou recebendo uma solicitação no formato XML de um cliente com codificação declarada = utf-8. Infelizmente, ele pode conter caracteres não utf-8 e é necessário remover esses caracteres do xml do meu lado (legado).
Vamos considerar um exemplo em que esse XML inválido contém £ (libra).
1) Recebo xml como java String com £ (não tenho acesso à interface no momento, mas provavelmente recebo xml como uma java String). Posso usar replaceAll (£, "") para me livrar desse personagem? Algum problema em potencial?
2) Recebo xml como uma matriz de bytes - como lidar com essa operação com segurança nesse caso?