Usando o boilerpipe para extrair artigos que não sejam em inglês

Estou tentando usar boilerpipe java library, para extrair artigos de notícias de um conjunto de sites. Funciona muito bem para textos em inglês, mas para textos com caracteres especiais, por exemplo, palavras com acentos (história), esses caracteres especiais não são extraídos corretamente. Eu acho que é um problema de codificaçã

No FAQ do boilerpipe, ele diz "Se você extrair texto em inglês, poderá precisar alterar alguns parâmetros" e depois se refere a umpape. Não encontrei solução neste documento.

Minha pergunta é: existem parâmetros ao usar boilerpipe onde posso especificar a codificação? Existe alguma maneira de obter o texto corretamente?

Como estou usando a biblioteca: (primeira tentativa com base no URL):

URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);

(segundo no código fonte HTLM)

String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);

questionAnswers(12)

yourAnswerToTheQuestion