Использование кипера для извлечения неанглийских статей

Question

Feb 13, 2012, 12:51 PM

Использование кипера для извлечения неанглийских статей

Я пытаюсь использоватьboilerpipe библиотека Java, чтобы извлечь новостные статьи из набора веб-сайтов. Он отлично работает для текстов на английском языке, но для текста со специальными символами, например, слов с символами ударения (História), эти специальные символы не извлекаются правильно. Я думаю, что это проблема кодирования.

В faq по шаблону написано: «Если вы извлекаете неанглийский текст, вам может потребоваться изменить некоторые параметры», а затем ссылается набумага, Я не нашел решения в этой статье.

Мой вопрос, есть ли какие-либо параметры при использовании котельной трубы, где я могу указать кодировку? Есть ли способ обойти и правильно получить текст?

Как я использую библиотеку: (первая попытка на основе URL):

URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);

(второй в исходном коде HTLM)

String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);

Использование кипера для извлечения неанглийских статей

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Использование кипера для извлечения неанглийских статей

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы