предоставляет ряд токенизаторов. Их можно использовать для остановки и удаления слов. Это простое и эффективное средство противодействия.

абатываю некоторые тексты на английском языке в приложении Java, и мне нужно остановить их. Например, из текста «удобства / удобства» мне нужно получить «аменит».

Функция выглядит так:

String stemTerm(String term){
   ...
}

Я нашел Lucene Analyzer, но он выглядит слишком сложным для того, что мне нужно.http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

Есть ли способ использовать его для определения слов без построения анализатора? Я не понимаю все дело анализатора ...

РЕДАКТИРОВАТЬ: Мне на самом деле нужен стеминг + лемматизация. Может ли Lucene сделать это?

Ответы на вопрос(6)

Ваш ответ на вопрос