Как воссоздать тот же DocumentTermMatrix с новыми (тестовыми) данными

Предположим, у меня есть текстовые данные обучения и данные тестирования. Чтобы быть более конкретным, у меня есть два набора данных - обучение и тестирование - и у каждого из них есть один столбец, который содержит текст и представляет интерес для текущей работы.

Я использовал пакет tm в R для обработки текстового столбца в наборе обучающих данных. После удаления пробелов, знаков препинания и стоп-слов я остановил корпус и, наконец, создал матрицу терминов документа из 1 грамма, содержащую частоту / количество слов в каждом документе. Затем я взял заранее установленное ограничение, скажем, 50 и сохранил только те термины, у которых число больше 50.

После этого я обучаю, скажем, модель GLMNET, используя DTM и зависимую переменную (которая присутствовала в данных обучения). Все идет гладко и легко до сих пор.

Однако как мне поступить, если я хочу оценить / предсказать модель на основе данных тестирования или любых новых данных, которые могут появиться в будущем?

В частности, я пытаюсь выяснить, как создать точное DTM на новых данных?

Если в новом наборе данных нет слов, похожих на исходные обучающие данные, то все термины должны иметь нулевое число (что нормально). Но я хочу иметь возможность реплицировать точно такой же DTM (с точки зрения структуры) на любой новый корпус.

Есть идеи / мысли?

Ответы на вопрос(2)

Ваш ответ на вопрос