Wie wird die Zeichensetzung mit NLTK-Tokenizer beseitigt?
Ich fange gerade erst an, NLTK zu verwenden und verstehe nicht so recht, wie ich eine Liste von Wörtern aus dem Text erhalten kann. Wenn ich benutzenltk.word_tokenize()
Ich bekomme eine Liste mit Wörtern und Satzzeichen. Ich brauche stattdessen nur die Worte. Wie kann ich Satzzeichen entfernen? Ebenfallsword_tokenize
funktioniert nicht mit mehreren Sätzen: Punkte werden zum letzten Wort hinzugefügt.