obter índices do texto original de nltk word_tokenize

Question

Jul 28, 2015, 08:05 AM

obter índices do texto original de nltk word_tokenize

Estou tokenizando um texto usando nltk.word_tokenize e também gostaria de obter o índice no texto bruto original para o primeiro caractere de cada token, ou seja,

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

Como também posso obter a matriz[0, 7] correspondente aos índices brutos dos tokens?

questionAnswers(2)

Perguntas populares

0 a resposta

Por que o segmento python consome tanta memória?

0 a resposta

Asterisco: criar usuário com template via AMI

0 a resposta

Limite de tamanho da resposta do navegador

0 a resposta

Como lidar com o caminho relativo em Junits entre Maven e Intellij

0 a resposta

Como definir manipuladores de eventos com tipo arbitrário com RTTI no Delphi 2010?

Você é muito ativo! É ótimo!

obter índices do texto original de nltk word_tokenize

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares