получить индексы исходного текста из nltk word_tokenize

Question

Jul 28, 2015, 08:05 AM

получить индексы исходного текста из nltk word_tokenize

Я токенизирую текст, используя nltk.word_tokenize, и я хотел бы также получить индекс в исходном необработанном тексте по первому символу каждого токена, т.е.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

Как я могу также получить массив[0, 7] соответствует необработанным индексам токенов?

Комментировать

получить индексы исходного текста из nltk word_tokenize

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы