Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?
Zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używamnltk.word_tokenize()
, Dostaję listę słów i interpunkcji. Potrzebuję tylko słów. Jak mogę pozbyć się interpunkcji? Równieżword_tokenize
nie działa z wieloma zdaniami: kropki są dodawane do ostatniego słowa.