Usando o boilerpipe para extrair artigos que não sejam em inglês

Question

Feb 13, 2012, 12:51 PM

Usando o boilerpipe para extrair artigos que não sejam em inglês

Estou tentando usar boilerpipe java library, para extrair artigos de notícias de um conjunto de sites. Funciona muito bem para textos em inglês, mas para textos com caracteres especiais, por exemplo, palavras com acentos (história), esses caracteres especiais não são extraídos corretamente. Eu acho que é um problema de codificaçã

No FAQ do boilerpipe, ele diz "Se você extrair texto em inglês, poderá precisar alterar alguns parâmetros" e depois se refere a umpape. Não encontrei solução neste documento.

Minha pergunta é: existem parâmetros ao usar boilerpipe onde posso especificar a codificação? Existe alguma maneira de obter o texto corretamente?

Como estou usando a biblioteca: (primeira tentativa com base no URL):

URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);

(segundo no código fonte HTLM)

String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);

questionAnswers(12)

Perguntas populares

0 a resposta

rolagem infinita com ember.js (carregamento lento)

0 a resposta

Obter ROWS como COLUMNS (consulta PIVOT dinâmica do SQL Server)

0 a resposta

O fundo ActionBarSherlock não se repete nas versões pré ICS

0 a resposta

Arquitetura N-Camada com Camada de Serviço, Camada de Negócios e Entity Framework

0 a resposta

Faça a div absoluta posicionada expanda a altura div do pai

Você é muito ativo! É ótimo!

Usando o boilerpipe para extrair artigos que não sejam em inglês

questionAnswers(12)

yourAnswerToTheQuestion

Perguntas populares