Buscando caracteres Unicode en Python

Question

Aug 04, 2013, 02:39 PM

Buscando caracteres Unicode en Python

Estoy trabajando en un proyecto de PNL basado en Python / NLTK con texto Unicode que no está en inglés. Para eso, necesito buscar una cadena Unicode dentro de una oración.

Hay un.TXT archivo guardado con algunas oraciones de Unicode que no están en inglés. Usando NLTKPunktSentenceTokenizer Los rompí y guardé en una lista de python.

sentences = PunktSentenceTokenizer().tokenize(text)

Ahora puedo iterar a través de la lista y obtener cada unosentence por separado.

Lo que necesito hacer es pasar por esosentence e identificar qué palabra tiene los caracteres Unicode dados.

Ejemplo -

sentence = 'AASFG BBBSDC FEKGG SDFGF'

Supongamos que el texto anterior no es unicode en inglés y necesito encontrar palabras que terminen conGF luego devuelve la palabra completa (puede ser índice de esa palabra).