Liste der Worthäufigkeiten mit R
Ich habe das TM-Paket verwendet, um eine Textanalyse durchzuführen. Mein Problem besteht darin, eine Liste mit Wörtern und deren Häufigkeit zu erstellen
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"
myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
#building the TDM
btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))
Normalerweise benutze ich den folgenden Code, um eine Liste von Wörtern in einem Frequenzbereich zu generieren
frq1 <- findFreqTerms(myTdm, lowfreq=50)
Gibt es eine Möglichkeit, dies so zu automatisieren, dass wir einen Datenrahmen mit allen Wörtern und ihrer Häufigkeit erhalten?
Das andere Problem, dem ich gegenüberstehe, ist das Konvertieren der Begriffsdokumentmatrix in einen Datenrahmen. Während ich an großen Datenproben arbeite, treten Speicherfehler auf. Gibt es dafür eine einfache Lösung?