Es wurde versucht, Wörter aus einer DocumentTermMatrix zu entfernen, um Themenmodelle zu verwenden

Also versuche ich das zu benutzentopicmodels Paket fürR (100 Themen auf einem Korpus von ~ 6400 Dokumenten, die jeweils ~ 1000 Wörter umfassen). Der Prozess läuft und stirbt dann, denke ich, weil ihm der Speicher ausgeht.

Also versuche ich, die Größe der Dokumentterm-Matrix zu verkleinern, die dielda() Funktion nimmt als Eingabe; Ich denke, ich kann das mit dem tunminDocFreq Funktion, wenn ich meine Dokumentterm-Matrizen generiere. Aber wenn ich es benutze, scheint es keinen Unterschied zu machen. Hier ist ein Code:

Hier ist der relevante Code:

> corpus <- Corpus(DirSource('./chunks/'),fileEncoding='utf-8')
> dtm <- DocumentTermMatrix(corpus)
> dim(dtm)
[1] 6423 4163
# So, I assume this next command will make my document term matrix smaller, i.e.
# fewer columns. I've chosen a larger number, 100, to illustrate the point.
> smaller <- DocumentTermMatrix(corpus, control=list(minDocFreq=100))
> dim(smaller)
[1]  6423 41613

Gleiche Abmessungen und gleiche Anzahl von Spalten (dh gleiche Anzahl von Begriffen).

Weißt du, was ich falsch mache? Vielen Dank.

Antworten auf die Frage(1)

Ihre Antwort auf die Frage