Por que a perplexidade no vocabulário acolchoado é infinitiva para o bigram nltk.lm?

Question

Mar 05, 2019, 10:40 AM

Por que a perplexidade no vocabulário acolchoado é infinitiva para o bigram nltk.lm?

Estou testando operplexity medida para um modelo de linguagem para um texto:

  train_sentences = nltk.sent_tokenize(train_text)
  test_sentences = nltk.sent_tokenize(test_text)

  train_tokenized_text = [list(map(str.lower, nltk.tokenize.word_tokenize(sent))) 
                for sent in train_sentences]

  test_tokenized_text = [list(map(str.lower, nltk.tokenize.word_tokenize(sent))) 
                for sent in test_sentences]

  from nltk.lm.preprocessing import padded_everygram_pipeline
  from nltk.lm import MLE,Laplace
  from nltk.lm import Vocabulary

  vocab = Vocabulary(nltk.tokenize.word_tokenize(train_text),1);

  n = 2
  print(train_tokenized_text)
  print(len(train_tokenized_text))
  train_data, padded_vocab = padded_everygram_pipeline(n, train_tokenized_text)

  # print(list(vocab),"\n >>>>",list(padded_vocab))
  model = MLE(n) # Lets train a 3-grams maximum likelihood estimation model.
  # model.fit(train_data, padded_vocab)
  model.fit(train_data, vocab)

  sentences = test_sentences
  print("len: ",len(sentences))
  print("per all", model.perplexity(test_text))

Quando eu usovocab emmodel.fit(train_data, vocab) a perplexidade emprint("per all", model.perplexity(test_text)) é um número 30.2), mas se eu usarpadded_vocab que possui @ adiciona<s> e</s> imprimeinf.