Использование кипера для извлечения неанглийских статей

Question

Feb 13, 2012, 12:51 PM

Использование кипера для извлечения неанглийских статей

Я пытаюсь использоватьboilerpipe библиотека Java, чтобы извлечь новостные статьи из набора веб-сайтов. Он отлично работает для текстов на английском языке, но для текста со специальными символами, например, слов с символами ударения (História), эти специальные символы не извлекаются правильно. Я думаю, что это проблема кодирования.

В faq по шаблону написано: «Если вы извлекаете неанглийский текст, вам может потребоваться изменить некоторые параметры», а затем ссылается набумага, Я не нашел решения в этой статье.

Мой вопрос, есть ли какие-либо параметры при использовании котельной трубы, где я могу указать кодировку? Есть ли способ обойти и правильно получить текст?

Как я использую библиотеку: (первая попытка на основе URL):

URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);

(второй в исходном коде HTLM)

String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);

Комментировать

Использование кипера для извлечения неанглийских статей

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы