Função tfidf.transform () não retornando valores corretos
Estou tentando ajustar o vetorizador tfidf em um determinado corpus de texto e, em seguida, use o mesmo vetorizador para encontrar a soma dos valores tfidf do novo texto. No entanto, os valores da soma não são os esperados. Abaixo está o exemplo:
text = ["I am new to python and R , how can anyone help me","why is no one able to crack the python code without help"]
tf= TfidfVectorizer(stop_words='english',ngram_range =(1,1))
tf.fit_transform(text)
zip(tf.get_feature_names(),tf.idf_)
[(u'able', 1.4054651081081644),
(u'code', 1.4054651081081644),
(u'crack', 1.4054651081081644),
(u'help', 1.0),
(u'new', 1.4054651081081644),
(u'python', 1.0)]
Agora, quando eu tento o mesmotf
com novo texto:
new_text = "i am not able to code"
np.sum(tf.transform([new_text]))
1.4142135623730951
Estou esperando que a saída seja em torno de 2.80. Qualquer sugestão sobre o que pode estar errado aqui seria realmente útil.