Como recriar o mesmo DocumentTermMatrix com novos dados (teste)
Suponha que eu tenha dados de treinamento baseados em texto e dados de teste. Para ser mais específico, tenho dois conjuntos de dados - treinamento e teste - e ambos têm uma coluna que contém texto e é de interesse para o trabalho em questão.
Eu usei o pacote tm em R para processar a coluna de texto no conjunto de dados de treinamento. Depois de remover os espaços em branco, a pontuação e as palavras, eu eliminei o corpus e finalmente criei uma matriz de termos de 1 grama contendo a freqüência / contagem das palavras em cada documento. Em seguida, tomei um limite pré-determinado de, digamos, 50 e mantive apenas os termos com uma contagem superior a 50.
Depois disso, eu treino um modelo GLMNET usando o DTM e a variável dependente (que estava presente nos dados de treinamento). Tudo corre suave e fácil até agora.
No entanto, como faço para marcar / prever o modelo nos dados de teste ou novos dados que possam vir no futuro?
Especificamente, o que estou tentando descobrir é como criar o DTM exato em novos dados?
Se o novo conjunto de dados não tiver nenhuma das palavras semelhantes aos dados de treinamento originais, todos os termos deverão ter uma contagem de zero (o que é bom). Mas eu quero ser capaz de replicar exatamente o mesmo DTM (em termos de estrutura) em qualquer novo corpus.
Alguma idéia / pensamento?