Buscando caracteres Unicode en Python
Estoy trabajando en un proyecto de PNL basado en Python / NLTK con texto Unicode que no está en inglés. Para eso, necesito buscar una cadena Unicode dentro de una oración.
Hay un.TXT archivo guardado con algunas oraciones de Unicode que no están en inglés. Usando NLTKPunktSentenceTokenizer Los rompí y guardé en una lista de python.
sentences = PunktSentenceTokenizer().tokenize(text)
Ahora puedo iterar a través de la lista y obtener cada unosentence
por separado.
Lo que necesito hacer es pasar por esosentence
e identificar qué palabra tiene los caracteres Unicode dados.
Ejemplo -
sentence = 'AASFG BBBSDC FEKGG SDFGF'
Supongamos que el texto anterior no es unicode en inglés y necesito encontrar palabras que terminen conGF
luego devuelve la palabra completa (puede ser índice de esa palabra).
search = 'SDFGF'
Del mismo modo necesito encontrar palabras que comiencen conBB
Recibe la palabra de ello.
search2 = 'BBBSDC'