Wyszukiwanie znaków Unicode w Pythonie

Pracuję nad projektem NLP opartym na Python / NLTK z nieangielskim tekstem Unicode. W tym celu muszę przeszukać ciąg Unicode wewnątrz zdania.

Tam jest.tekst plik zapisany z niektórymi nie-angielskimi zdaniami Unicode Korzystanie z NLTKPunktSentenceTokenizer Złamałem je i zapisałem na liście Pythona.

sentences = PunktSentenceTokenizer().tokenize(text)

Teraz mogę przeglądać listę i uzyskać każdąsentence osobno.

Muszę to zrobićsentence i określ, które słowo ma podane znaki Unicode.

Przykład -

sentence = 'AASFG BBBSDC FEKGG SDFGF'

Załóżmy, że powyższy tekst jest nie-angielskim Unicode i muszę znaleźć słowa kończące się naGF następnie zwróć całe słowo (może być indeksem tego słowa).

search = 'SDFGF'

Podobnie muszę znaleźć słowa zaczynające się odBB zrozum słowo.

search2 = 'BBBSDC'

questionAnswers(1)

yourAnswerToTheQuestion