Исправление орфографии для нормализации данных в Java

Question

Feb 23, 2010, 11:45 AM

Исправление орфографии для нормализации данных в Java

Я ищу библиотеку Java для первоначальной проверки орфографии / нормализации данных в сгенерированном пользователем текстовом контенте, представьте интересы, введенные в профиле Facebook.

Этот текст будет помечен токеном в какой-то момент (до или после исправления заклинания, в зависимости от того, что работает лучше), а некоторые из них будут использованы в качестве ключей для поиска (точное соответствие) Было бы неплохо сократить количество орфографических ошибок и тому подобное, чтобы получить больше совпадений. Было бы еще лучше, если бы исправление работало на токенах длиннее, чем одно слово, например «кофе за бокалом» стал бы «пить кофе», а не «думать кофе».

Я нашел следующие библиотеки Java для исправления орфографии:

JAZZY похоже, не находится в стадии активной разработки. Кроме того, подход, основанный на расстоянии от словаря, кажется неадекватным из-за использования нестандартного языка в профилях социальных сетей и многословных токенах.APACHE LUCENE кажется, естьстатистическая проверка орфографии это должно быть гораздо более подходящим. Вопрос здесь, как создать хороший словарь? (В противном случае мы не используем Lucene, поэтому индекс не существует.)

Любые предложения приветствуются!

Исправление орфографии для нормализации данных в Java

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Исправление орфографии для нормализации данных в Java

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы