Como posso obter termos de maior frequência de vetores TD-idf, para cada arquivo no scikit-learn?
Eu estou tentando obter termos de maior freqüência fora de vetores em scikit-learn. Do exemplo Pode ser feito usando isso para cada categoria, mas eu quero para cada arquivo dentro de categorias.
if opts.print_top10:
print "top 10 keywords per class:"
for i, category in enumerate(categories):
top10 = np.argsort(clf.coef_[i])[-10:]
print trim("%s: %s" % (
category, " ".join(feature_names[top10])))
Eu quero fazer isso para cada arquivo do conjunto de dados de teste em vez de cada categoria. Onde devo estar procurando?
obrigado
EDIT: s / discriminativa / maior freqüência / g (Desculpe pelas confusões)