¿Cómo construir un Term-Document-Matrix a partir de un conjunto de textos y un conjunto específico de términos (etiquetas)?

Question

Oct 31, 2013, 12:56 PM

¿Cómo construir un Term-Document-Matrix a partir de un conjunto de textos y un conjunto específico de términos (etiquetas)?

Tengo dos conjuntos de datos:

un conjunto de etiquetas (palabras simples comophp, html, etc)

un conjunto de textos

Ahora deseo construir una Matriz-Documento-Término que represente el número de ocurrencias deltags elemento en eltext elemento.

He mirado enBiblioteca r tm, y elTermDocumentMatrix función, pero no veo la posibilidad de especificar las etiquetas como entrada.

¿Hay una manera de hacerlo?

Estoy abierto a cualquier herramienta (R, Python, otra), aunque usar R sería genial.

Vamos a configurar los datos como:

TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"

TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"

ahora me gustaría tener TermDocumentMatrix de TextSet de acuerdo con TagSet.

Intenté esto:

myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))


>inspect(tdm)
A term-document matrix (7 terms, 2 documents)

Non-/sparse entries: 8/6
Sparsity           : 43%
Maximal term length: 10 
Weighting          : term frequency (tf)

            Docs
Terms        1 2
  blah       1 2
  check      1 0
  file       1 0
  java       2 0
  javascript 1 0
  php        0 1
  script     1 0

pero eso es comparar el texto con las palabras del texto, mientras que quiero verificar la presencia de etiquetas ya definidas.