tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos

Question

Nov 08, 2013, 03:38 AM

tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos

Estoy usando el paquete tm.

Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy es bueno. John salió a correr. Bla, bla, ..."

Ahora quiero crear una matriz de términos de documentos a partir de este marco de datos.

Mi problema es que quiero conservar la información de identificación para que después de obtener la matriz de términos del documento, pueda unir esta matriz con otra matriz que tenga cada fila como otra información (fecha, tema, sentimiento) de cada documento y cada fila se identifica por la identificación del documento.

¿Cómo puedo hacer eso

Pregunta 1: ¿Cómo convierto este marco de datos en un corpus y conservo la información de identificación?

Pregunta 2: Después de obtener un dtm, ¿cómo puedo unirlo con otro conjunto de datos por ID?