lista częstotliwości słów za pomocą R

Question

Aug 07, 2013, 12:30 PM

r text-mining word-frequency term-document-matrix

lista częstotliwości słów za pomocą R

Używam pakietu tm do uruchomienia analizy tekstu. Mój problem polega na utworzeniu listy ze słowami i ich częstotliwościami powiązanymi z tym samym

library(tm)
library(RWeka)

txt <- read.csv("HW.csv",header=T) 
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"

myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

#building the TDM

btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))

Zazwyczaj używam następującego kodu do generowania listy słów w zakresie częstotliwości

frq1 <- findFreqTerms(myTdm, lowfreq=50)

Czy jest jakiś sposób na zautomatyzowanie tego w taki sposób, że otrzymamy ramkę danych ze wszystkimi słowami i ich częstotliwością?

Innym problemem, z którym się borykam, jest konwersja macierzy dokumentów terminów na ramkę danych. Ponieważ pracuję nad dużymi próbkami danych, natrafiam na błędy pamięci. Czy jest na to proste rozwiązanie?