obter índices do texto original de nltk word_tokenize

Estou tokenizando um texto usando nltk.word_tokenize e também gostaria de obter o índice no texto bruto original para o primeiro caractere de cada token, ou seja,

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

Como também posso obter a matriz[0, 7] correspondente aos índices brutos dos tokens?

questionAnswers(2)

yourAnswerToTheQuestion