Wyszukiwanie znaków Unicode w Pythonie

Question

Aug 04, 2013, 02:39 PM

Wyszukiwanie znaków Unicode w Pythonie

Pracuję nad projektem NLP opartym na Python / NLTK z nieangielskim tekstem Unicode. W tym celu muszę przeszukać ciąg Unicode wewnątrz zdania.

Tam jest.tekst plik zapisany z niektórymi nie-angielskimi zdaniami Unicode Korzystanie z NLTKPunktSentenceTokenizer Złamałem je i zapisałem na liście Pythona.

sentences = PunktSentenceTokenizer().tokenize(text)

Teraz mogę przeglądać listę i uzyskać każdąsentence osobno.

Muszę to zrobićsentence i określ, które słowo ma podane znaki Unicode.

Przykład -

sentence = 'AASFG BBBSDC FEKGG SDFGF'

Załóżmy, że powyższy tekst jest nie-angielskim Unicode i muszę znaleźć słowa kończące się naGF następnie zwróć całe słowo (może być indeksem tego słowa).