Wyszukiwanie znaków Unicode w Pythonie
Pracuję nad projektem NLP opartym na Python / NLTK z nieangielskim tekstem Unicode. W tym celu muszę przeszukać ciąg Unicode wewnątrz zdania.
Tam jest.tekst plik zapisany z niektórymi nie-angielskimi zdaniami Unicode Korzystanie z NLTKPunktSentenceTokenizer Złamałem je i zapisałem na liście Pythona.
sentences = PunktSentenceTokenizer().tokenize(text)
Teraz mogę przeglądać listę i uzyskać każdąsentence
osobno.
Muszę to zrobićsentence
i określ, które słowo ma podane znaki Unicode.
Przykład -
sentence = 'AASFG BBBSDC FEKGG SDFGF'
Załóżmy, że powyższy tekst jest nie-angielskim Unicode i muszę znaleźć słowa kończące się naGF
następnie zwróć całe słowo (może być indeksem tego słowa).
search = 'SDFGF'
Podobnie muszę znaleźć słowa zaczynające się odBB
zrozum słowo.
search2 = 'BBBSDC'