Cómo recrear el mismo DocumentTermMatrix con datos nuevos (de prueba)

Question

May 19, 2013, 03:30 AM

Cómo recrear el mismo DocumentTermMatrix con datos nuevos (de prueba)

Supongamos que tengo datos de entrenamiento basados en texto y datos de prueba. Para ser más específico, tengo dos conjuntos de datos: entrenamiento y pruebas, y ambos tienen una columna que contiene texto y es de interés para el trabajo que se tiene a mano.

Usé el paquete tm en R para procesar la columna de texto en el conjunto de datos de entrenamiento. Después de eliminar los espacios en blanco, la puntuación y las palabras de parada, detuve el corpus y finalmente creé una matriz de términos del documento de 1 gramos que contenía la frecuencia / conteo de las palabras en cada documento. Luego tomé un corte predeterminado de, digamos, 50 y mantuve solo aquellos términos que tienen un conteo de más de 50.

Después de esto, entreno un, digamos, modelo GLMNET usando el DTM y la variable dependiente (que estaba presente en los datos de entrenamiento). Todo funciona sin problemas y hasta ahora.

Sin embargo, ¿cómo procedo cuando quiero calificar / predecir el modelo en los datos de prueba o cualquier información nueva que pueda venir en el futuro?

Específicamente, lo que estoy tratando de descubrir es que ¿cómo creo el DTM exacto en los nuevos datos?

Si el nuevo conjunto de datos no tiene ninguna de las palabras similares a los datos de entrenamiento originales, entonces todos los términos deben tener un conteo de cero (lo que está bien). Pero quiero poder replicar exactamente el mismo DTM (en términos de estructura) en cualquier nuevo corpus.

¿Alguna idea / pensamiento?