Как я могу получить наиболее частые термины из векторов TD-idf для каждого файла в scikit-learn?
Я пытаюсь получить термины с наивысшей частотой из векторов в scikit-learn. Из примера Это можно сделать, используя это для каждой категории, но я хочу это для каждого файла внутри категории.
if opts.print_top10:
print "top 10 keywords per class:"
for i, category in enumerate(categories):
top10 = np.argsort(clf.coef_[i])[-10:]
print trim("%s: %s" % (
category, " ".join(feature_names[top10])))
Я хочу сделать это для каждого файла из набора данных тестирования, а не для каждой категории. Где я должен искать?
Спасибо
РЕДАКТИРОВАТЬ: с / дискриминант / самая высокая частота / г (извините за путаницу)