Как рассчитать TF * IDF для одного нового документа для классификации?
Я использую векторы термина документа, чтобы представить коллекцию документа. я используюTF * IDF рассчитать вес термина для каждого вектора документа. Тогда я мог бы использовать эту матрицу для обучения модели классификации документов.
Я с нетерпением жду, чтобы классифицировать новый документ в будущем. Но для того, чтобы классифицировать его, мне нужно сначала превратить документ в вектор термина документа, и вектор также должен состоять из значений TF * IDF.
У меня вопрос, как я могу рассчитать TF * IDF только с одним документом?
Насколько я понимаю, TF может быть рассчитан на основе одного документа, но IDF может быть рассчитан только с набором документов. В моем текущем эксперименте я фактически вычисляю значение TF * IDF длявсе сборник документов. А потом пользуюсьнемного документы как учебный набор идругие как тестовый набор.
Я просто внезапно понял, что это не так применимо к реальной жизни.
ДОБАВИТЬ 1Таким образом, на самом деле есть 2 слегка отличных сценария для классификации:
классифицировать некоторые документы, содержание которых известно, но метка неизвестна.классифицировать какой-то совершенно невидимый документ.Для 1 мы можем объединитьвсе документы, как с этикетками, так и без них. И возьми TF * IDF на всех из них.Таким образом, даже мы используем только документыс этикетками для обучения, результат обучения по-прежнему будет содержать влияние документовбез ярлыков.
Но мой сценарий 2.
Предположим, у меня есть следующая информация для терминаT из резюмеповышение квалификации установить корпус:
количество документов для T в учебном набореnобщее количество учебных документовNДолжен ли я рассчитать IDF т дляневидимый документ D как ниже?
IDF (t, D) = log ((N + 1) / (n + 1))
ДОБАВИТЬ 2А что если я столкнусь с термином в новом документекоторый не появился в учебном корпусе раньше? Как рассчитать вес для него в векторе doc-term?