Сделайте фрейм данных из N часто встречающихся терминов для нескольких корпораций, используя пакет tm в R
У меня есть несколькоTermDocumentMatrix
s создан сtm
пакет в R.
Я хочу найти 10 самых частых терминов в каждом наборе документов, чтобы в конечном итоге получить следующую таблицу вывода:
corpus1 corpus2
"beach" "city"
"sand" "sidewalk"
... ...
[10th most frequent word]
По определению,findFreqTerms(corpus1,N)
возвращает все условия, которые появляются N раз или более. Чтобы сделать это вручную, я мог менять N до тех пор, пока не вернулось примерно 10 терминов, но вывод дляfindFreqTerms
перечислены в алфавитном порядке, поэтому, если бы я не выбрал именно правильную букву N, я бы на самом деле не знал, какие из них были в топ-10. Я подозреваю, что это связано с манипулированием внутренней структурой TDM, которую вы можете видеть с помощьюstr(corpus1)
как вПакет R tm создает матрицу из самых частых терминов но ответ здесь был очень непрозрачным для меня, поэтому я хотел перефразировать вопрос.
Спасибо!