Como posso obter termos de maior frequência de vetores TD-idf, para cada arquivo no scikit-learn?

Question

Nov 01, 2012, 05:28 PM

python parsing scikit-learn classification machine-learning

Como posso obter termos de maior frequência de vetores TD-idf, para cada arquivo no scikit-learn?

Eu estou tentando obter termos de maior freqüência fora de vetores em scikit-learn. Do exemplo Pode ser feito usando isso para cada categoria, mas eu quero para cada arquivo dentro de categorias.

https://github.com/scikit-learn/scikit-learn/blob/master/examples/document_classification_20newsgroups.py

    if opts.print_top10:
        print "top 10 keywords per class:"
        for i, category in enumerate(categories):
            top10 = np.argsort(clf.coef_[i])[-10:]
            print trim("%s: %s" % (
            category, " ".join(feature_names[top10])))

Eu quero fazer isso para cada arquivo do conjunto de dados de teste em vez de cada categoria. Onde devo estar procurando?

obrigado

EDIT: s / discriminativa / maior freqüência / g (Desculpe pelas confusões)