Como recriar o mesmo DocumentTermMatrix com novos dados (teste)

Question

May 19, 2013, 03:30 AM

Como recriar o mesmo DocumentTermMatrix com novos dados (teste)

Suponha que eu tenha dados de treinamento baseados em texto e dados de teste. Para ser mais específico, tenho dois conjuntos de dados - treinamento e teste - e ambos têm uma coluna que contém texto e é de interesse para o trabalho em questão.

Eu usei o pacote tm em R para processar a coluna de texto no conjunto de dados de treinamento. Depois de remover os espaços em branco, a pontuação e as palavras, eu eliminei o corpus e finalmente criei uma matriz de termos de 1 grama contendo a freqüência / contagem das palavras em cada documento. Em seguida, tomei um limite pré-determinado de, digamos, 50 e mantive apenas os termos com uma contagem superior a 50.

Depois disso, eu treino um modelo GLMNET usando o DTM e a variável dependente (que estava presente nos dados de treinamento). Tudo corre suave e fácil até agora.

No entanto, como faço para marcar / prever o modelo nos dados de teste ou novos dados que possam vir no futuro?

Especificamente, o que estou tentando descobrir é como criar o DTM exato em novos dados?

Se o novo conjunto de dados não tiver nenhuma das palavras semelhantes aos dados de treinamento originais, todos os termos deverão ter uma contagem de zero (o que é bom). Mas eu quero ser capaz de replicar exatamente o mesmo DTM (em termos de estrutura) em qualquer novo corpus.

Alguma idéia / pensamento?