все возможные дополнения словоформы (биомедицинского) слова
Я знаком со словом, происходящим и заканчивающимся из пакета тм в R.
Я пытаюсь найти быстрый и грязный метод для нахождения всех вариантов данного слова (в некотором корпусе). Например, я хотел бы получить «лейкоциты» и «лейкоциты», если мой ввод «лейкоциты» ,
Если бы мне пришлось сделать это прямо сейчас, я бы, наверное, просто пошел с чем-то вроде:
library(tm)
library(RWeka)
dictionary <- unique(unlist(lapply(crude, words)))
grep(pattern = LovinsStemmer("company"),
ignore.case = T, x = dictionary, value = T)
Я использовал Lovins, потому что Porter Snowball не выглядит достаточно агрессивным.
Я открыт для предложений относительно других основателей, языков сценариев (Python?) Или совершенно других подходов.