obtener índices del texto original de nltk word_tokenize
Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir.
import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
¿Cómo puedo obtener también la matriz?[0, 7]
correspondiente a los índices brutos de los tokens?