obtener índices del texto original de nltk word_tokenize

Question

Jul 28, 2015, 08:05 AM

obtener índices del texto original de nltk word_tokenize

Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']

¿Cómo puedo obtener también la matriz?[0, 7] correspondiente a los índices brutos de los tokens?

Respuestas a la pregunta(2)

Preguntas populares

0 la respuesta

La ventana de la trama no responde

0 la respuesta

¿Cómo saber la escala actual de un UIView?

0 la respuesta

¿Por qué un binario de un sistema operativo (Windows) no se ejecuta en otro (Linux) para la misma arquitectura subyacente? [cerrado]

0 la respuesta

Usando el formulario rellenado previamente, envíe solo los campos modificados

0 la respuesta

Unit framework de prueba para node.js que admite específicamente la prueba de código asíncrono?

¡Eres muy activo! ¡Es genial!

obtener índices del texto original de nltk word_tokenize

Respuestas a la pregunta(2)

Su respuesta a la pregunta

Preguntas populares