Cómo mantener los marcadores de inicio y fin de oración con quanteda

Estoy tratando de crear 3 gramos usando R'squanteda paquete.

Estoy luchando por encontrar una manera de mantener los n-gramos al principio y al final de los marcadores de oración, el<s> y</s> como en el siguiente código.

Pensé que usando elkeptFeatures con una expresión regular que coincida con los que deberían mantenerlos, pero los marcadores de chevron siempre se eliminan.

¿Cómo puedo evitar que se eliminen los marcadores de chevron o cuál es la mejor manera de delimitar el comienzo y el final de la oración conquanteda?

Como pregunta adicional, ¿cuál es la ventaja dedocfreq(mydfm) terminadocolSums(mydfm), el resultado de str (colSums (mydfm)) y str (docfreq (mydfm)) es casi idéntico (Named num [1:n] el primeroNamed int [1:n] el último)?

library(quanteda)
text <- "<s>I'm a sentence and I'd better be formatted properly!</s><s>I'm a second sentence</s>"

qc <- corpus(text)

mydfm  <- dfm(qc, ngram=3, removeNumbers = F, stem=T, keptFeatures="\\</?s\\>")

names(colSums(mydfm))

# Output:
# [1] "s_i'm_a"    "i'm_a_sentenc"    "a_sentenc_and"    "sentenc_and_i'd"
# [2] "and_i'd_better"   "i'd_better_be"    "better_be_format"   
# [3] "be_format_proper" "format_proper_s"  "proper_s_s"   "s_s_i'm"    
# [4] "i'm_a_second"   "a_second_sentenc"   "second_sentenc_s"

EDITAR:

Se corrigieron las características de mantenimiento de las características guardadas en el fragmento de código.

Respuestas a la pregunta(2)

Su respuesta a la pregunta