реальное количество слов в NLTK

Question

May 20, 2012, 10:40 PM

реальное количество слов в NLTK

В книге NLTK есть несколько примеров подсчета слов, но на самом деле это не подсчет слов, а подсчет токенов. Например, в главе 1 «Словарь подсчета» сказано, что следующее дает количество слов:

text = nltk.Text(tokens)
len(text)

Однако он не '- он дает количество слов и знаков препинания. Как вы можете получить реальное количество слов (игнорируя знаки препинания)?

Точно так же, как вы можете получить среднее количество символов в слове? Очевидный ответ:

word_average_length =(len(string_of_text)/len(text))

Тем не менее, это будет отключено, потому что:

len(string_of_text) is a character count, including spaces len(text) is a token count, excluding spaces but including punctuation marks, which aren't words.

Я что-то здесь упускаю? Это должно быть очень распространенной задачей НЛП ...

реальное количество слов в NLTK

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

реальное количество слов в NLTK

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы