prawdziwe słowo w NLTK

W książce NLTK znajduje się kilka przykładów liczby słów, ale w rzeczywistości nie są to liczby słów, ale liczba żetonów. Na przykład, Rozdział 1, Liczenie słownictwa mówi, że poniżej podano liczbę słów:

text = nltk.Text(tokens)
len(text)

Jednak nie - daje słowo i liczbę znaków interpunkcyjnych. Jak uzyskać prawdziwą liczbę słów (ignorując interpunkcję)?

Podobnie, jak można uzyskać średnią liczbę znaków w słowie? Oczywista odpowiedź brzmi:

word_average_length =(len(string_of_text)/len(text))

Jednak byłoby to wyłączone, ponieważ:

len (string_of_text) to liczba znaków, łącznie ze spacjamilen (tekst) to liczba tokenów, z wyłączeniem spacji, ale zawierająca znaki interpunkcyjne, które nie są słowami.

Czy coś mi umyka? To musi być bardzo częste zadanie NLP ...

questionAnswers(2)

yourAnswerToTheQuestion