get Indizes des Originaltextes von nltk word_tokenize

Ich toke einen Text mit nltk.word_tokenize und ich möchte auch den Index im ursprünglichen Rohtext auf das erste Zeichen jedes Tokens setzen, d. H.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

Wie kann ich auch das Array bekommen[0, 7] entsprechend den Rohindizes der Token?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage