obter índices do texto original de nltk word_tokenize
Estou tokenizando um texto usando nltk.word_tokenize e também gostaria de obter o índice no texto bruto original para o primeiro caractere de cada token, ou seja,
import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
Como também posso obter a matriz[0, 7]
correspondente aos índices brutos dos tokens?