Eksploracja tekstu za pomocą pakietu tm-word - słowo
Robię trochę wyszukiwania tekstu w R za pomocątm
-pakiet. Wszystko działa bardzo płynnie. Jednak po problemie występuje jeden problem (http://en.wikipedia.org/wiki/Stemming). Oczywiście są pewne słowa, które mają ten sam rdzeń, ale ważne jest, aby nie były one „rzucane razem” (ponieważ te słowa oznaczają różne rzeczy).
Na przykład patrz 4 teksty poniżej. W tym miejscu nie można używać zamiennika „wykładowca” lub „wykład” („skojarzenie” i „współpracownik”). Jednak jest to wykonywane w kroku 4.
Czy jest jakieś eleganckie rozwiązanie do ręcznego wdrożenia tego w niektórych przypadkach / słowach (np. „Wykładowca” i „wykład” są utrzymywane jako dwie różne rzeczy)?
texts <- c("i am member of the XYZ association",
"apply for our open associate position",
"xyz memorial lecture takes place on wednesday",
"vote for the most popular lecturer")
# Step 1: Create corpus
corpus <- Corpus(DataframeSource(data.frame(texts)))
# Step 2: Keep a copy of corpus to use later as a dictionary for stem completion
corpus.copy <- corpus
# Step 3: Stem words in the corpus
corpus.temp <- tm_map(corpus, stemDocument, language = "english")
inspect(corpus.temp)
# Step 4: Complete the stems to their original form
corpus.final <- tm_map(corpus.temp, stemCompletion, dictionary = corpus.copy)
inspect(corpus.final)