obtener índices del texto original de nltk word_tokenize

Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

¿Cómo puedo obtener también la matriz?[0, 7] correspondiente a los índices brutos de los tokens?

Respuestas a la pregunta(2)

Su respuesta a la pregunta