Utilizando boilerpipe para extraer artículos que no están en inglés
Estoy tratando de usar boilerpipe java library, para extraer artículos de noticias de un conjunto de sitios web. Funciona muy bien para textos en inglés, pero para texto con caracteres especiales, por ejemplo, palabras con acento (historia), estos caracteres especiales no se extraen correctamente. Creo que es un problema de codificación.
En las preguntas frecuentes de boilerpipe, dice "Si extrae texto que no está en inglés, es posible que deba cambiar algunos parámetros" y luego se refiere a unpape. No encontré ninguna solución en este documento.
Mi pregunta es, ¿hay algún parámetro cuando uso boilerpipe donde puedo especificar la codificación? ¿Hay alguna forma de dar la vuelta y obtener el texto correctamente?
Cómo estoy usando la biblioteca: (primer intento basado en la URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(segundo en el código fuente HTLM)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);