Попытка удалить слова из DocumentTermMatrix, чтобы использовать топические модели

Итак, я пытаюсь использоватьtopicmodels пакет дляR (100 тем в корпусе ~ 6400 документов, каждый из которых ~ 1000 слов). Процесс запускается, а затем умирает, я думаю, потому что у него заканчивается память.

Поэтому я стараюсь уменьшить размер матрицы термина документа, чтобыlda() функция принимает в качестве входных данных; Я полагаю, что я могу сделать это с помощьюminDocFreq функция, когда я генерирую свои матрицы терминов документа. Но когда я использую это, это неКажется, это не имеет значения. Вот некоторый код:

Вот соответствующий бит кода:

> corpus  dtm  dim(dtm)
[1] 6423 4163
# So, I assume this next command will make my document term matrix smaller, i.e.
# fewer columns. I've chosen a larger number, 100, to illustrate the point.
> smaller  dim(smaller)
[1]  6423 41613

Одинаковые размеры и одинаковое количество столбцов (то есть одинаковое количество терминов).

Любой смысл, что яя делаю неправильно? Благодарю.

Ответы на вопрос(1)

Ваш ответ на вопрос