lista de frecuencias de palabras usando R
He estado usando el paquete tm para ejecutar un análisis de texto. Mi problema es crear una lista con palabras y sus frecuencias asociadas con la misma
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"
myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
#building the TDM
btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))
Normalmente uso el siguiente código para generar una lista de palabras en un rango de frecuencia
frq1 <- findFreqTerms(myTdm, lowfreq=50)
¿Hay alguna forma de automatizar esto de modo que obtengamos un marco de datos con todas las palabras y su frecuencia?
El otro problema al que me enfrento es con la conversión del término matriz de documentos en un marco de datos. Cuando estoy trabajando en grandes muestras de datos, me encuentro con errores de memoria. ¿Hay una solución simple para esto?