получить индексы исходного текста из nltk word_tokenize
Я токенизирую текст, используя nltk.word_tokenize, и я хотел бы также получить индекс в исходном необработанном тексте по первому символу каждого токена, т.е.
import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
Как я могу также получить массив[0, 7]
соответствует необработанным индексам токенов?