lista de frecuencias de palabras usando R

Question

Aug 07, 2013, 12:30 PM

r word-frequency text-mining term-document-matrix

lista de frecuencias de palabras usando R

He estado usando el paquete tm para ejecutar un análisis de texto. Mi problema es crear una lista con palabras y sus frecuencias asociadas con la misma

library(tm)
library(RWeka)

txt <- read.csv("HW.csv",header=T) 
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"

myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

#building the TDM

btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))

Normalmente uso el siguiente código para generar una lista de palabras en un rango de frecuencia

frq1 <- findFreqTerms(myTdm, lowfreq=50)

¿Hay alguna forma de automatizar esto de modo que obtengamos un marco de datos con todas las palabras y su frecuencia?

El otro problema al que me enfrento es con la conversión del término matriz de documentos en un marco de datos. Cuando estoy trabajando en grandes muestras de datos, me encuentro con errores de memoria. ¿Hay una solución simple para esto?