все возможные дополнения словоформы (биомедицинского) слова

Я знаком со словом, происходящим и заканчивающимся из пакета тм в R.

Я пытаюсь найти быстрый и грязный метод для нахождения всех вариантов данного слова (в некотором корпусе). Например, я хотел бы получить «лейкоциты» и «лейкоциты», если мой ввод «лейкоциты» ,

Если бы мне пришлось сделать это прямо сейчас, я бы, наверное, просто пошел с чем-то вроде:

library(tm)
library(RWeka)
dictionary <- unique(unlist(lapply(crude, words)))
grep(pattern = LovinsStemmer("company"), 
    ignore.case = T, x = dictionary, value = T)

Я использовал Lovins, потому что Porter Snowball не выглядит достаточно агрессивным.

Я открыт для предложений относительно других основателей, языков сценариев (Python?) Или совершенно других подходов.

Ответы на вопрос(1)

Ваш ответ на вопрос