lista de frequências de palavras usando R
Eu tenho usado o pacote tm para executar alguma análise de texto. Meu problema é com a criação de uma lista com palavras e suas freqüências associadas com o mesmo
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"
myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
#building the TDM
btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))
Eu normalmente uso o seguinte código para gerar lista de palavras em um intervalo de freqüência
frq1 <- findFreqTerms(myTdm, lowfreq=50)
Existe alguma maneira de automatizar isso de tal forma que obtemos um dataframe com todas as palavras e sua frequência?
O outro problema que enfrento é a conversão da matriz de documentos de termo em um quadro de dados. Como estou trabalhando em grandes amostras de dados, me deparo com erros de memória. Existe uma solução simples para isso?