Jak zbudować Term-Document-Matrix z zestawu tekstów i określonego zestawu terminów (tagów)?

Mam dwa zestawy danych:

zestaw znaczników (pojedyncze słowa jakphp, htmlitp.)

zestaw tekstów

Chciałbym teraz zbudować Matrycę Dokumentu Term reprezentującą liczbę wystąpieńtags element wtext element.

PrzejrzałemBiblioteka R tmiTermDocumentMatrix funkcji, ale nie widzę możliwości określenia tagów jako danych wejściowych.

Czy istnieje sposób, aby to zrobić?

Jestem otwarty na każde narzędzie (R, Python, inne), chociaż używanie R byłoby świetne.

Ustawmy dane jako:

TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"

TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"

teraz chciałbym mieć TermDocumentMatrix TextSet zgodnie z TagSet.

Próbowałem tego:

myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))


>inspect(tdm)
A term-document matrix (7 terms, 2 documents)

Non-/sparse entries: 8/6
Sparsity           : 43%
Maximal term length: 10 
Weighting          : term frequency (tf)

            Docs
Terms        1 2
  blah       1 2
  check      1 0
  file       1 0
  java       2 0
  javascript 1 0
  php        0 1
  script     1 0

ale to sprawdza tekst pod kątem słów, podczas gdy chcę sprawdzić obecność już zdefiniowanych znaczników.

questionAnswers(2)

yourAnswerToTheQuestion