Как я могу получить наиболее частые термины из векторов TD-idf для каждого файла в scikit-learn?

Question

Nov 01, 2012, 04:28 PM

parsing python machine-learning classification scikit-learn

Как я могу получить наиболее частые термины из векторов TD-idf для каждого файла в scikit-learn?

Я пытаюсь получить термины с наивысшей частотой из векторов в scikit-learn. Из примера Это можно сделать, используя это для каждой категории, но я хочу это для каждого файла внутри категории.

https://github.com/scikit-learn/scikit-learn/blob/master/examples/document_classification_20newsgroups.py

    if opts.print_top10:
        print "top 10 keywords per class:"
        for i, category in enumerate(categories):
            top10 = np.argsort(clf.coef_[i])[-10:]
            print trim("%s: %s" % (
            category, " ".join(feature_names[top10])))

Я хочу сделать это для каждого файла из набора данных тестирования, а не для каждой категории. Где я должен искать?

Спасибо

РЕДАКТИРОВАТЬ: с / дискриминант / самая высокая частота / г (извините за путаницу)

Как я могу получить наиболее частые термины из векторов TD-idf для каждого файла в scikit-learn?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как я могу получить наиболее частые термины из векторов TD-idf для каждого файла в scikit-learn?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы