Попытка удалить слова из DocumentTermMatrix, чтобы использовать топические модели
Итак, я пытаюсь использоватьtopicmodels
пакет дляR
(100 тем в корпусе ~ 6400 документов, каждый из которых ~ 1000 слов). Процесс запускается, а затем умирает, я думаю, потому что у него заканчивается память.
Поэтому я стараюсь уменьшить размер матрицы термина документа, чтобыlda()
функция принимает в качестве входных данных; Я полагаю, что я могу сделать это с помощьюminDocFreq
функция, когда я генерирую свои матрицы терминов документа. Но когда я использую это, это неКажется, это не имеет значения. Вот некоторый код:
Вот соответствующий бит кода:
> corpus dtm dim(dtm)
[1] 6423 4163
# So, I assume this next command will make my document term matrix smaller, i.e.
# fewer columns. I've chosen a larger number, 100, to illustrate the point.
> smaller dim(smaller)
[1] 6423 41613
Одинаковые размеры и одинаковое количество столбцов (то есть одинаковое количество терминов).
Любой смысл, что яя делаю неправильно? Благодарю.