предоставляет ряд токенизаторов. Их можно использовать для остановки и удаления слов. Это простое и эффективное средство противодействия.
абатываю некоторые тексты на английском языке в приложении Java, и мне нужно остановить их. Например, из текста «удобства / удобства» мне нужно получить «аменит».
Функция выглядит так:
String stemTerm(String term){
...
}
Я нашел Lucene Analyzer, но он выглядит слишком сложным для того, что мне нужно.http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html
Есть ли способ использовать его для определения слов без построения анализатора? Я не понимаю все дело анализатора ...
РЕДАКТИРОВАТЬ: Мне на самом деле нужен стеминг + лемматизация. Может ли Lucene сделать это?