Как рассчитать TF * IDF для одного нового документа для классификации?

Я использую векторы термина документа, чтобы представить коллекцию документа. я используюTF * IDF рассчитать вес термина для каждого вектора документа. Тогда я мог бы использовать эту матрицу для обучения модели классификации документов.

Я с нетерпением жду, чтобы классифицировать новый документ в будущем. Но для того, чтобы классифицировать его, мне нужно сначала превратить документ в вектор термина документа, и вектор также должен состоять из значений TF * IDF.

У меня вопрос, как я могу рассчитать TF * IDF только с одним документом?

Насколько я понимаю, TF может быть рассчитан на основе одного документа, но IDF может быть рассчитан только с набором документов. В моем текущем эксперименте я фактически вычисляю значение TF * IDF длявсе сборник документов. А потом пользуюсьнемного документы как учебный набор идругие как тестовый набор.

Я просто внезапно понял, что это не так применимо к реальной жизни.

ДОБАВИТЬ 1

Таким образом, на самом деле есть 2 слегка отличных сценария для классификации:

классифицировать некоторые документы, содержание которых известно, но метка неизвестна.классифицировать какой-то совершенно невидимый документ.

Для 1 мы можем объединитьвсе документы, как с этикетками, так и без них. И возьми TF * IDF на всех из них.Таким образом, даже мы используем только документыс этикетками для обучения, результат обучения по-прежнему будет содержать влияние документовбез ярлыков.

Но мой сценарий 2.

Предположим, у меня есть следующая информация для терминаT из резюмеповышение квалификации установить корпус:

количество документов для T в учебном набореnобщее количество учебных документовN

Должен ли я рассчитать IDF т дляневидимый документ D как ниже?

IDF (t, D) = log ((N + 1) / (n + 1))

ДОБАВИТЬ 2

А что если я столкнусь с термином в новом документекоторый не появился в учебном корпусе раньше? Как рассчитать вес для него в векторе doc-term?

Ответы на вопрос(3)

Ваш ответ на вопрос