Como construir uma Document-Term-Matrix a partir de um conjunto de textos e um conjunto específico de termos (tags)?

Question

Oct 31, 2013, 12:56 PM

Como construir uma Document-Term-Matrix a partir de um conjunto de textos e um conjunto específico de termos (tags)?

Eu tenho dois conjuntos de dados:

um conjunto de tags (palavras únicas comophp, html, etc)

um conjunto de textos

Desejo agora construir uma Matriz de Documentos a Termo representando o número de ocorrências dotags elemento notext elemento.

Eu olhei emBiblioteca R tm, e asTermDocumentMatrix função, mas não vejo a possibilidade de especificar as tags como entrada.

Existe uma maneira de fazer isso?

Estou aberto a qualquer ferramenta (R, Python, outros), embora o uso de R seja ótimo.

Vamos definir os dados como:

TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"

TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"

Agora eu gostaria de ter o TermDocumentMatrix do TextSet de acordo com o TagSet.

Eu tentei isso:

myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))


>inspect(tdm)
A term-document matrix (7 terms, 2 documents)

Non-/sparse entries: 8/6
Sparsity           : 43%
Maximal term length: 10 
Weighting          : term frequency (tf)

            Docs
Terms        1 2
  blah       1 2
  check      1 0
  file       1 0
  java       2 0
  javascript 1 0
  php        0 1
  script     1 0

mas isso é verificar o texto com as palavras do texto, enquanto eu quero verificar a presença de tags já definidas.