get Indizes des Originaltextes von nltk word_tokenize
Ich toke einen Text mit nltk.word_tokenize und ich möchte auch den Index im ursprünglichen Rohtext auf das erste Zeichen jedes Tokens setzen, d. H.
import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
Wie kann ich auch das Array bekommen[0, 7]
entsprechend den Rohindizes der Token?