Eksploracja tekstu za pomocą pakietu tm-word - słowo

Question

Apr 17, 2013, 10:15 PM

Eksploracja tekstu za pomocą pakietu tm-word - słowo

Robię trochę wyszukiwania tekstu w R za pomocątm-pakiet. Wszystko działa bardzo płynnie. Jednak po problemie występuje jeden problem (http://en.wikipedia.org/wiki/Stemming). Oczywiście są pewne słowa, które mają ten sam rdzeń, ale ważne jest, aby nie były one „rzucane razem” (ponieważ te słowa oznaczają różne rzeczy).

Na przykład patrz 4 teksty poniżej. W tym miejscu nie można używać zamiennika „wykładowca” lub „wykład” („skojarzenie” i „współpracownik”). Jednak jest to wykonywane w kroku 4.

Czy jest jakieś eleganckie rozwiązanie do ręcznego wdrożenia tego w niektórych przypadkach / słowach (np. „Wykładowca” i „wykład” są utrzymywane jako dwie różne rzeczy)?

texts <- c("i am member of the XYZ association",
"apply for our open associate position", 
"xyz memorial lecture takes place on wednesday", 
"vote for the most popular lecturer")

# Step 1: Create corpus
corpus <- Corpus(DataframeSource(data.frame(texts)))

# Step 2: Keep a copy of corpus to use later as a dictionary for stem completion
corpus.copy <- corpus

# Step 3: Stem words in the corpus
corpus.temp <- tm_map(corpus, stemDocument, language = "english")  

inspect(corpus.temp)

# Step 4: Complete the stems to their original form
corpus.final <- tm_map(corpus.temp, stemCompletion, dictionary = corpus.copy)  

inspect(corpus.final)