Saxografia e codificação
Eu tenho um contato que está tendo problemas com o SAX ao analisar arquivos RSS e Atom. Segundo ele, é como se o texto proveniente dos elementos Item fosse truncado em um apóstrofo ou, às vezes, em um caractere acentuado. Parece haver um problema com a codificação também.
Eu dei uma chance para o SAX e também fiz alguns truncamentos, mas não consegui escavar ainda mais. Eu apreciaria algumas sugestões se alguém lá fora tivesse lidado com isso antes.
Este é o código que está sendo usado no ContentHandler:
public void characters( char[], int start, int end ) throws SAXException {
//
link = new String(ch, start, end);
Edit: O problema de codificação pode ser devido ao armazenamento de informações em uma matriz de bytes, como sei Java trabalha em Unicode.