Como construir uma Document-Term-Matrix a partir de um conjunto de textos e um conjunto específico de termos (tags)?
Eu tenho dois conjuntos de dados:
um conjunto de tags (palavras únicas comophp
, html
, etc)
um conjunto de textos
Desejo agora construir uma Matriz de Documentos a Termo representando o número de ocorrências dotags
elemento notext
elemento.
Eu olhei emBiblioteca R tm, e asTermDocumentMatrix
função, mas não vejo a possibilidade de especificar as tags como entrada.
Existe uma maneira de fazer isso?
Estou aberto a qualquer ferramenta (R, Python, outros), embora o uso de R seja ótimo.
Vamos definir os dados como:
TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"
TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"
Agora eu gostaria de ter o TermDocumentMatrix do TextSet de acordo com o TagSet.
Eu tentei isso:
myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))
>inspect(tdm)
A term-document matrix (7 terms, 2 documents)
Non-/sparse entries: 8/6
Sparsity : 43%
Maximal term length: 10
Weighting : term frequency (tf)
Docs
Terms 1 2
blah 1 2
check 1 0
file 1 0
java 2 0
javascript 1 0
php 0 1
script 1 0
mas isso é verificar o texto com as palavras do texto, enquanto eu quero verificar a presença de tags já definidas.