Jak zbudować Term-Document-Matrix z zestawu tekstów i określonego zestawu terminów (tagów)?
Mam dwa zestawy danych:
zestaw znaczników (pojedyncze słowa jakphp
, html
itp.)
zestaw tekstów
Chciałbym teraz zbudować Matrycę Dokumentu Term reprezentującą liczbę wystąpieńtags
element wtext
element.
PrzejrzałemBiblioteka R tmiTermDocumentMatrix
funkcji, ale nie widzę możliwości określenia tagów jako danych wejściowych.
Czy istnieje sposób, aby to zrobić?
Jestem otwarty na każde narzędzie (R, Python, inne), chociaż używanie R byłoby świetne.
Ustawmy dane jako:
TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"
TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"
teraz chciałbym mieć TermDocumentMatrix TextSet zgodnie z TagSet.
Próbowałem tego:
myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))
>inspect(tdm)
A term-document matrix (7 terms, 2 documents)
Non-/sparse entries: 8/6
Sparsity : 43%
Maximal term length: 10
Weighting : term frequency (tf)
Docs
Terms 1 2
blah 1 2
check 1 0
file 1 0
java 2 0
javascript 1 0
php 0 1
script 1 0
ale to sprawdza tekst pod kątem słów, podczas gdy chcę sprawdzić obecność już zdefiniowanych znaczników.