Как определить (естественный) язык документа?

У меня есть комплект документов на двух языках: английском и немецком. Об этих документах нет полезной метаинформации, программа может просматривать только содержимое. Исходя из этого, программа должна решить, на каком из двух языков написан документ.

Есть ли "стандарт» алгоритм для этой задачи, который может быть реализован в течение нескольких часов время? Или, альтернативно, бесплатная библиотека .NET или инструментарий, который может это сделать? Я знаю оLingPipe, но это

ДжаваНе бесплатно для "полукоммерческий» использование

Эта проблема кажется удивительно сложной. Я проверилGoogle AJAX Language API (который я нашел, ища этот сайт первым), но это было смехотворно плохо. Для шести веб-страниц на немецком языке, на которые я указал, верным было только одно предположение. Другими догадками были шведский, английский, датский и французский ...

Простой подход, который я придумал, состоит в использовании списка стоп-слов. Мое приложение уже использует такой список для немецких документов, чтобы проанализировать их с помощью Lucene.Net. Если мое приложение сканирует документы на наличие стоп-слов с любого языка, победит тот, у кого больше вхождений. Конечно, очень наивный подход, но этоможет быть будь достаточно хорош К сожалению я неУ нас нет времени стать экспертом в обработке естественного языка, хотя это интригующая тема.

Ответы на вопрос(11)

Ваш ответ на вопрос