Duplikate aus der Liste entfernen, basierend auf semantischer Ähnlichkeit / Verwandtschaft

Question

Aug 15, 2016, 03:43 PM

Duplikate aus der Liste entfernen, basierend auf semantischer Ähnlichkeit / Verwandtschaft

R + tm: Wie kann ich Elemente in einer Liste auf Grundlage der semantischen Ähnlichkeit desuplizieren?v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv"). Meine erwartete Lösung wärec("bank", "ford_suv',"toyota_suv","nissan_suv"). Das heißt, Bank, Banken und Bankwesen sollen auf einen Begriff "Bank" reduziert werden.SnowBall::stemming ist keine Option, da ich den Zeitungsstil verschiedener Länder beibehalten muss. Jede Hilfe oder Anweisung ist hilfreich.