реальное количество слов в NLTK
В книге NLTK есть несколько примеров подсчета слов, но на самом деле это не подсчет слов, а подсчет токенов. Например, в главе 1 «Словарь подсчета» сказано, что следующее дает количество слов:
text = nltk.Text(tokens)
len(text)
Однако он не '- он дает количество слов и знаков препинания. Как вы можете получить реальное количество слов (игнорируя знаки препинания)?
Точно так же, как вы можете получить среднее количество символов в слове? Очевидный ответ:
word_average_length =(len(string_of_text)/len(text))
Тем не менее, это будет отключено, потому что:
len(string_of_text) is a character count, including spaces len(text) is a token count, excluding spaces but including punctuation marks, which aren't words.Я что-то здесь упускаю? Это должно быть очень распространенной задачей НЛП ...