Использование кипера для извлечения неанглийских статей
Я пытаюсь использоватьboilerpipe библиотека Java, чтобы извлечь новостные статьи из набора веб-сайтов. Он отлично работает для текстов на английском языке, но для текста со специальными символами, например, слов с символами ударения (História), эти специальные символы не извлекаются правильно. Я думаю, что это проблема кодирования.
В faq по шаблону написано: «Если вы извлекаете неанглийский текст, вам может потребоваться изменить некоторые параметры», а затем ссылается набумага, Я не нашел решения в этой статье.
Мой вопрос, есть ли какие-либо параметры при использовании котельной трубы, где я могу указать кодировку? Есть ли способ обойти и правильно получить текст?
Как я использую библиотеку: (первая попытка на основе URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(второй в исходном коде HTLM)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);