Wie man den Anfang und das Ende von Satzmarkierungen mit quanteda @ behä

Question

Mar 31, 2016, 01:33 AM

Wie man den Anfang und das Ende von Satzmarkierungen mit quanteda @ behä

Ich versuche, 3 Gramm mit Rs zu erstellenquanteda package.

Ich habe Mühe, einen Weg zu finden, um den Anfang und das Ende der Satzmarkierungen in n-Gramm zu halte<s> und</s> wie im Code unten.

Ich dachte, dass mit demkeptFeatures mit einem regulären Ausdruck, der diesen entspricht, sollte sie beibehalten, aber die Chevron-Markierungen werden immer entfernt.

Wie kann ich verhindern, dass die Chevron-Marker entfernt werden, oder wie kann ich Satzanfang und -ende am besten mit @ abgrenzequanteda?

Als Bonusfrage, was ist der Vorteil vondocfreq(mydfm) ÜbercolSums(mydfm), das Ergebnis von str (colSums (mydfm)) und str (docfreq (mydfm)) ist fast identisch Named num [1:n] das Vorherige,Named int [1:n] letzteres)?

library(quanteda)
text <- "<s>I'm a sentence and I'd better be formatted properly!</s><s>I'm a second sentence</s>"

qc <- corpus(text)

mydfm  <- dfm(qc, ngram=3, removeNumbers = F, stem=T, keptFeatures="\\</?s\\>")

names(colSums(mydfm))

# Output:
# [1] "s_i'm_a"    "i'm_a_sentenc"    "a_sentenc_and"    "sentenc_and_i'd"
# [2] "and_i'd_better"   "i'd_better_be"    "better_be_format"   
# [3] "be_format_proper" "format_proper_s"  "proper_s_s"   "s_s_i'm"    
# [4] "i'm_a_second"   "a_second_sentenc"   "second_sentenc_s"

BEARBEITEN

Corrected keepFeatures to keptFeatures im Code-Snippet.