@Himadri Я обновил ответ.

го искал, чтобы понять это, но я не в состоянии. Я понимаю, что по умолчанию TfidfVectorizer будет применятьсяl2 нормализация по срочности.это Статья объяснить уравнение этого. Я использую TfidfVectorizer для моего текста, написанного на языке гуджарати. Ниже приведены подробности о выходе:

Мои два документа:

ખુબ વખાણ કરે છે

ખુબ વધારે છે

Код, который я использую:

vectorizer = TfidfVectorizer(tokenizer=tokenize_words, sublinear_tf=True, use_idf=True, smooth_idf=False)

Вот,tokenize_words моя функция для токенизации слов. Список TF-IDF моих данных:

[[ 0.6088451   0.35959372  0.35959372  0.6088451   0.        ]
 [ 0.          0.45329466  0.45329466  0.          0.76749457]]

Список возможностей:

['કરે', 'ખુબ', 'છે.', 'વખાણ', 'વધારે']

Значение idf:

{'વખાણ': 1.6931471805599454, 'છે.': 1.0, 'કરે': 1.6931471805599454, 'વધારે': 1.6931471805599454, 'ખુબ': 1.0}

Пожалуйста, объясните мне в этом примере, какова будет частота каждого термина в обоих моих документах.

Ответы на вопрос(0)

Ваш ответ на вопрос