Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?

Question

Mar 21, 2013, 01:22 PM

Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?

Zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używamnltk.word_tokenize(), Dostaję listę słów i interpunkcji. Potrzebuję tylko słów. Jak mogę pozbyć się interpunkcji? Równieżword_tokenize nie działa z wieloma zdaniami: kropki są dodawane do ostatniego słowa.