Jak mogę uzyskać najwyższe terminy częstotliwości z wektorów TD-idf, dla każdego pliku w nauce scikit?
Próbuję uzyskać najwyższe terminy częstotliwości z wektorów w nauczaniu scikit. Z przykładu Można to zrobić za pomocą tego dla każdej kategorii, ale chcę go dla każdego pliku wewnątrz kategorii.
if opts.print_top10:
print "top 10 keywords per class:"
for i, category in enumerate(categories):
top10 = np.argsort(clf.coef_[i])[-10:]
print trim("%s: %s" % (
category, " ".join(feature_names[top10])))
Chcę to zrobić dla każdego pliku z testowania zestawu danych zamiast każdej kategorii. Gdzie powinienem szukać?
Dzięki
EDYCJA: s / dyskrymina / najwyższa częstotliwość / g (przepraszam za zamieszanie)