get Indizes des Originaltextes von nltk word_tokenize

Question

Jul 28, 2015, 08:05 AM

Ich toke einen Text mit nltk.word_tokenize und ich möchte auch den Index im ursprünglichen Rohtext auf das erste Zeichen jedes Tokens setzen, d. H.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

Wie kann ich auch das Array bekommen[0, 7] entsprechend den Rohindizes der Token?

Antworten auf die Frage(4)

Bash 'source' in Python emulieren

Incorrect decimal (integer) value: '' mySQL

Wie werden Module in IPython automatisch neu geladen?

JPA, Mysql Blob gibt zu lange Daten zurück

Ist ein Pubnub-Abonnement in einem optimalen Service geöffnet?