¿Cómo construir un Term-Document-Matrix a partir de un conjunto de textos y un conjunto específico de términos (etiquetas)?
Tengo dos conjuntos de datos:
un conjunto de etiquetas (palabras simples comophp
, html
, etc)
un conjunto de textos
Ahora deseo construir una Matriz-Documento-Término que represente el número de ocurrencias deltags
elemento en eltext
elemento.
He mirado enBiblioteca r tm, y elTermDocumentMatrix
función, pero no veo la posibilidad de especificar las etiquetas como entrada.
¿Hay una manera de hacerlo?
Estoy abierto a cualquier herramienta (R, Python, otra), aunque usar R sería genial.
Vamos a configurar los datos como:
TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"
TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"
ahora me gustaría tener TermDocumentMatrix de TextSet de acuerdo con TagSet.
Intenté esto:
myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))
>inspect(tdm)
A term-document matrix (7 terms, 2 documents)
Non-/sparse entries: 8/6
Sparsity : 43%
Maximal term length: 10
Weighting : term frequency (tf)
Docs
Terms 1 2
blah 1 2
check 1 0
file 1 0
java 2 0
javascript 1 0
php 0 1
script 1 0
pero eso es comparar el texto con las palabras del texto, mientras que quiero verificar la presencia de etiquetas ya definidas.