echte Wortzahl in NLTK

Question

May 20, 2012, 10:40 PM

echte Wortzahl in NLTK

Das NLTK-Buch enthält einige Beispiele für Wortzählungen, in Wirklichkeit handelt es sich jedoch nicht um Wortzählungen, sondern um Token-Zählungen. In Kapitel 1, Zählen des Wortschatzes, heißt es beispielsweise, dass Folgendes eine Wortzählung ergibt:

text = nltk.Text(tokens)
len(text)

Dies ist jedoch nicht der Fall - es gibt ein Wort und eine Interpunktionszahl an. Wie können Sie eine echte Wortzahl erhalten (Satzzeichen ignorieren)?

Auf ähnliche Weise können Sie die durchschnittliche Anzahl von Zeichen in einem Wort ermitteln. Die offensichtliche Antwort lautet:

word_average_length =(len(string_of_text)/len(text))

Dies wäre jedoch aus folgenden Gründen nicht möglich:

len (string_of_text) ist eine Zeichenanzahl, einschließlich Leerzeichenlen (text) ist eine Tokenanzahl, die Leerzeichen ausschließt, aber Satzzeichen enthält, bei denen es sich nicht um Wörter handelt.

Vermisse ich hier etwas? Dies muss eine sehr häufige NLP-Aufgabe sein ...