prawdziwe słowo w NLTK

Question

May 20, 2012, 10:40 PM

prawdziwe słowo w NLTK

W książce NLTK znajduje się kilka przykładów liczby słów, ale w rzeczywistości nie są to liczby słów, ale liczba żetonów. Na przykład, Rozdział 1, Liczenie słownictwa mówi, że poniżej podano liczbę słów:

text = nltk.Text(tokens)
len(text)

Jednak nie - daje słowo i liczbę znaków interpunkcyjnych. Jak uzyskać prawdziwą liczbę słów (ignorując interpunkcję)?

Podobnie, jak można uzyskać średnią liczbę znaków w słowie? Oczywista odpowiedź brzmi:

word_average_length =(len(string_of_text)/len(text))

Jednak byłoby to wyłączone, ponieważ:

len (string_of_text) to liczba znaków, łącznie ze spacjamilen (tekst) to liczba tokenów, z wyłączeniem spacji, ale zawierająca znaki interpunkcyjne, które nie są słowami.

Czy coś mi umyka? To musi być bardzo częste zadanie NLP ...

questionAnswers(2)

Popularne pytania

0 odpowiedzi

Jak wysłać skompresowane SVG przez Apache2?

0 odpowiedzi

Wizualizuj duże wykresy [zamknięte]

0 odpowiedzi

java.lang.NoSuchMethodError: org.slf4j.spi.LocationAwareLogger.log (Lorg / slf4j / Marker; Ljava / lang / String; ILjava / lang / String; [Ljava / lang / Obje

0 odpowiedzi

Metoda pasków Pythona

0 odpowiedzi

szuflada nawigacyjna google maps v2, szuflada blokująca mapę

Jesteś bardzo aktywny! To świetnie!

prawdziwe słowo w NLTK

questionAnswers(2)

yourAnswerToTheQuestion

Popularne pytania