но, кажется, нет удовлетворительного объяснения.

аюсь сделать две матрицы документов для корпуса, одну с униграммами и одну с биграммами. Тем не менее, матрица биграммы в настоящее время просто идентична матрице униграмм, и я не уверен почему.

Код:

docs<-Corpus(DirSource("data", recursive=TRUE))

# Get the document term matrices
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
dtm_unigram <- DocumentTermMatrix(docs, control = list(tokenize="words", 
    removePunctuation = TRUE, 
    stopwords = stopwords("english"), 
    stemming = TRUE))
dtm_bigram <- DocumentTermMatrix(docs, control = list(tokenize = BigramTokenizer,
    removePunctuation = TRUE,
    stopwords = stopwords("english"),
    stemming = TRUE))

inspect(dtm_unigram)
inspect(dtm_bigram)

Я также попытался использовать ngram (x, n = 2) из ​​пакета ngram в качестве токенизатора, но это тоже не работает. Как я могу исправить биграмм токенизации?

Ответы на вопрос(1)

Ваш ответ на вопрос