Wie erstelle ich eine Term-Document-Matrix aus einer Menge von Texten und einer bestimmten Menge von Begriffen (Tags)?
Ich habe zwei Datensätze:
eine Reihe von Tags (einzelne Wörter wiephp
, html
, usw)
eine Reihe von Texten
Ich möchte nun eine Term-Document-Matrix aufbauen, die die Anzahl der Vorkommen dertags
Element in dertext
Element.
Ich habe nachgesehenR Bibliothek tm, und dasTermDocumentMatrix
funktion, aber ich sehe keine möglichkeit die tags als eingabe anzugeben.
Gibt es eine Möglichkeit, das zu tun?
Ich bin offen für jedes Tool (R, Python, andere), obwohl die Verwendung von R großartig wäre.
Stellen wir die Daten wie folgt ein:
TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"
TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"
jetzt möchte ich die TermDocumentMatrix von TextSet nach TagSet haben.
Ich habe es versucht:
myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))
>inspect(tdm)
A term-document matrix (7 terms, 2 documents)
Non-/sparse entries: 8/6
Sparsity : 43%
Maximal term length: 10
Weighting : term frequency (tf)
Docs
Terms 1 2
blah 1 2
check 1 0
file 1 0
java 2 0
javascript 1 0
php 0 1
script 1 0
aber das prüft den Text gegen die Wörter des Textes, während ich das Vorhandensein von bereits definierten Umbauten überprüfen möchte.