Liste der Worthäufigkeiten mit R

Question

Aug 07, 2013, 12:30 PM

word-frequency text-mining r term-document-matrix

Liste der Worthäufigkeiten mit R

Ich habe das TM-Paket verwendet, um eine Textanalyse durchzuführen. Mein Problem besteht darin, eine Liste mit Wörtern und deren Häufigkeit zu erstellen

library(tm)
library(RWeka)

txt <- read.csv("HW.csv",header=T) 
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"

myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

#building the TDM

btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))

Normalerweise benutze ich den folgenden Code, um eine Liste von Wörtern in einem Frequenzbereich zu generieren

frq1 <- findFreqTerms(myTdm, lowfreq=50)

Gibt es eine Möglichkeit, dies so zu automatisieren, dass wir einen Datenrahmen mit allen Wörtern und ihrer Häufigkeit erhalten?

Das andere Problem, dem ich gegenüberstehe, ist das Konvertieren der Begriffsdokumentmatrix in einen Datenrahmen. Während ich an großen Datenproben arbeite, treten Speicherfehler auf. Gibt es dafür eine einfache Lösung?