@Himadri Я обновил ответ.
го искал, чтобы понять это, но я не в состоянии. Я понимаю, что по умолчанию TfidfVectorizer будет применятьсяl2
нормализация по срочности.это Статья объяснить уравнение этого. Я использую TfidfVectorizer для моего текста, написанного на языке гуджарати. Ниже приведены подробности о выходе:
Мои два документа:
ખુબ વખાણ કરે છે
ખુબ વધારે છે
Код, который я использую:
vectorizer = TfidfVectorizer(tokenizer=tokenize_words, sublinear_tf=True, use_idf=True, smooth_idf=False)
Вот,tokenize_words
моя функция для токенизации слов. Список TF-IDF моих данных:
[[ 0.6088451 0.35959372 0.35959372 0.6088451 0. ]
[ 0. 0.45329466 0.45329466 0. 0.76749457]]
Список возможностей:
['કરે', 'ખુબ', 'છે.', 'વખાણ', 'વધારે']
Значение idf:
{'વખાણ': 1.6931471805599454, 'છે.': 1.0, 'કરે': 1.6931471805599454, 'વધારે': 1.6931471805599454, 'ખુબ': 1.0}
Пожалуйста, объясните мне в этом примере, какова будет частота каждого термина в обоих моих документах.