удалить дубликаты из списка на основе семантического сходства
R + tm: Как мне дублировать элементы в списке на основе семантического сходства?v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv")
, Мое ожидаемое решение будетc("bank", "ford_suv',"toyota_suv","nissan_suv")
, То есть банк, банки и банковское дело сводятся к одному термину «банк».SnowBall::stemming
это не вариант, потому что я должен сохранить аромат газетных стилей разных стран. Любая помощь или направление будут полезны.