Como determinar a linguagem (natural) de um documento?

Question

Sep 05, 2009, 04:50 PM

Como determinar a linguagem (natural) de um documento?

Eu tenho um conjunto de documentos em dois idiomas: inglês e alemão. Não há meta-informação utilizável sobre esses documentos, um programa pode examinar apenas o conteúdo. Com base nisso, o programa tem que decidir em qual dos dois idiomas o documento está escrito.

Existe algum algoritmo "padrão" para este problema que possa ser implementado em poucas horas? Ou, como alternativa, uma biblioteca ou kit de ferramentas gratuita do .NET que pode fazer isso? Eu sei sobreLingPipe, Mas isso é

JavaNão é livre para uso "semi-comercial"

Esse problema parece ser surpreendentemente difícil. Eu verifiquei oAPI de idioma do Google AJAX (que eu encontrei pesquisando este site primeiro), mas foi ridiculamente ruim. Para seis páginas da web em alemão para as quais eu apontei, apenas um palpite estava correto. Os outros palpites eram sueco, inglês, dinamarquês e francês ...

Uma abordagem simples que eu criei é usar uma lista de palavras de parada. Meu aplicativo já usa essa lista de documentos alemães para analisá-los com o Lucene.Net. Se meu aplicativo verificar os documentos em busca de ocorrências de palavras irrelevantes de qualquer idioma, aquele com mais ocorrências ganharia. Uma abordagem muito ingênua, com certeza, maspoderia seja bom o suficiente. Infelizmente, não tenho tempo para me tornar especialista em processamento de linguagem natural, embora seja um tópico intrigante.