@ Вивек Кумар Понял. Спасибо за быструю помощь и справку. :)

Question

Mar 29, 2017, 12:40 PM

@ Вивек Кумар Понял. Спасибо за быструю помощь и справку. :)

аюсь установить векторизатор tfidf в определенном текстовом корпусе, а затем использовать тот же векторизатор, чтобы найти сумму значений tfidf нового текста. Однако значения сумм не соответствуют ожидаемым. Ниже приведен пример:

text = ["I am new to python and R , how can anyone help me","why is no one able to crack the python code without help"]
tf= TfidfVectorizer(stop_words='english',ngram_range =(1,1))
tf.fit_transform(text)
zip(tf.get_feature_names(),tf.idf_)

[(u'able', 1.4054651081081644),
 (u'code', 1.4054651081081644),
 (u'crack', 1.4054651081081644),
 (u'help', 1.0),
 (u'new', 1.4054651081081644),
 (u'python', 1.0)]

Теперь, когда я попробую то же самоеtf с новым текстом:

new_text = "i am not able to code"
np.sum(tf.transform([new_text]))
1.4142135623730951

Я ожидаю, что результат будет около 2,80. Любое предположение о том, что здесь может пойти не так, было бы очень полезно.

@ Вивек Кумар Понял. Спасибо за быструю помощь и справку. :)

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

@ Вивек Кумар Понял. Спасибо за быструю помощь и справку. :)

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы