Wie wird die Zeichensetzung mit NLTK-Tokenizer beseitigt?

Question

Mar 21, 2013, 01:22 PM

Wie wird die Zeichensetzung mit NLTK-Tokenizer beseitigt?

Ich fange gerade erst an, NLTK zu verwenden und verstehe nicht so recht, wie ich eine Liste von Wörtern aus dem Text erhalten kann. Wenn ich benutzenltk.word_tokenize()Ich bekomme eine Liste mit Wörtern und Satzzeichen. Ich brauche stattdessen nur die Worte. Wie kann ich Satzzeichen entfernen? Ebenfallsword_tokenize funktioniert nicht mit mehreren Sätzen: Punkte werden zum letzten Wort hinzugefügt.