Es wurde versucht, Wörter aus einer DocumentTermMatrix zu entfernen, um Themenmodelle zu verwenden
Also versuche ich das zu benutzentopicmodels
Paket fürR
(100 Themen auf einem Korpus von ~ 6400 Dokumenten, die jeweils ~ 1000 Wörter umfassen). Der Prozess läuft und stirbt dann, denke ich, weil ihm der Speicher ausgeht.
Also versuche ich, die Größe der Dokumentterm-Matrix zu verkleinern, die dielda()
Funktion nimmt als Eingabe; Ich denke, ich kann das mit dem tunminDocFreq
Funktion, wenn ich meine Dokumentterm-Matrizen generiere. Aber wenn ich es benutze, scheint es keinen Unterschied zu machen. Hier ist ein Code:
Hier ist der relevante Code:
> corpus <- Corpus(DirSource('./chunks/'),fileEncoding='utf-8')
> dtm <- DocumentTermMatrix(corpus)
> dim(dtm)
[1] 6423 4163
# So, I assume this next command will make my document term matrix smaller, i.e.
# fewer columns. I've chosen a larger number, 100, to illustrate the point.
> smaller <- DocumentTermMatrix(corpus, control=list(minDocFreq=100))
> dim(smaller)
[1] 6423 41613
Gleiche Abmessungen und gleiche Anzahl von Spalten (dh gleiche Anzahl von Begriffen).
Weißt du, was ich falsch mache? Vielen Dank.