Разметить абзац на предложение, а затем на слова в NLTK
Я пытаюсь ввести целый абзац в мой текстовый процессор, чтобы сначала разбить его на предложения, а затем на слова.
Я попробовал следующий код, но он не работает,
#text is the paragraph input
sent_text = sent_tokenize(text)
tokenized_text = word_tokenize(sent_text.split)
tagged = nltk.pos_tag(tokenized_text)
print(tagged)
Однако это не работает и дает мне ошибки. Итак, как я могу разбить абзацы на предложения, а затем на слова?
Пример абзаца:
Эта штука, казалось, подавила и поразила маленького темно-коричневого пса и ранила его до глубины души. Он в отчаянии опустился на ноги ребенка. Когда удар повторился, вместе с предостережением в детских предложениях, он перевернулся на спину и своеобразно держал свои лапы. В то же время своими ушами и глазами он предложил маленькую молитву ребенку.
** ПРЕДУПРЕЖДЕНИЕ: ** Это просто случайный текст из Интернета, я не являюсь владельцем вышеуказанного контента.