список частот слов с использованием R
Я использовал пакет tm для анализа текста. Моя проблема с созданием списка со словами и их частотами, связанными с
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"
myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
#building the TDM
btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))
Я обычно использую следующий код для генерации списка слов в частотном диапазоне
frq1 <- findFreqTerms(myTdm, lowfreq=50)
Есть ли способ автоматизировать это так, чтобы мы получили блок данных со всеми словами и их частотой?
Другая проблема, с которой я сталкиваюсь, заключается в преобразовании матрицы документа термина во фрейм данных. Поскольку я работаю с большими выборками данных, я сталкиваюсь с ошибками памяти. Есть ли простое решение для этого?