Jak mogę uzyskać najwyższe terminy częstotliwości z wektorów TD-idf, dla każdego pliku w nauce scikit?

Question

Nov 01, 2012, 05:28 PM

parsing machine-learning scikit-learn classification python

Jak mogę uzyskać najwyższe terminy częstotliwości z wektorów TD-idf, dla każdego pliku w nauce scikit?

Próbuję uzyskać najwyższe terminy częstotliwości z wektorów w nauczaniu scikit. Z przykładu Można to zrobić za pomocą tego dla każdej kategorii, ale chcę go dla każdego pliku wewnątrz kategorii.

https://github.com/scikit-learn/scikit-learn/blob/master/examples/document_classification_20newsgroups.py

    if opts.print_top10:
        print "top 10 keywords per class:"
        for i, category in enumerate(categories):
            top10 = np.argsort(clf.coef_[i])[-10:]
            print trim("%s: %s" % (
            category, " ".join(feature_names[top10])))

Chcę to zrobić dla każdego pliku z testowania zestawu danych zamiast każdej kategorii. Gdzie powinienem szukać?

Dzięki

EDYCJA: s / dyskrymina / najwyższa częstotliwość / g (przepraszam za zamieszanie)