Tokenize um parágrafo em sentença e depois em palavras no NLTK

Question

Jun 03, 2016, 06:03 AM

Tokenize um parágrafo em sentença e depois em palavras no NLTK

Estou tentando inserir um parágrafo inteiro no meu processador de texto para ser dividido em frases primeiro e depois em palavras.

Eu tentei o código a seguir, mas ele não funciona,

    #text is the paragraph input
    sent_text = sent_tokenize(text)
    tokenized_text = word_tokenize(sent_text.split)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

no entanto, isso não está funcionando e me dá erros. Então, como tokenizo parágrafos em frases e depois em palavras?

Um parágrafo de exemplo:

Essa coisa pareceu dominar e surpreender o cachorrinho marrom-escuro e feriu-o no coração. Ele afundou em desespero aos pés da criança. Quando o golpe foi repetido, junto com uma advertência em frases infantis, ele se virou de costas e segurou as patas de uma maneira peculiar. Ao mesmo tempo, com seus ouvidos e olhos, ele fez uma pequena oração à criança.

** AVISO: ** Este é apenas um texto aleatório da internet, não possuo o conteúdo acima.