Поиск символов Юникода в Python
Я работаю над проектом НЛП на основе Python / NLTK с неанглийским текстом Unicode. Для этого мне нужно найти строку Юникода внутри предложения.
Существует.текст файл сохранен с некоторыми неанглийскими предложениями юникода. Использование NLTKPunktSentenceTokenizer я сломал их и сохранил в списке питонов.
sentences = PunktSentenceTokenizer().tokenize(text)
Теперь я могу перебрать список и получить каждыйsentence
отдельно.
Что мне нужно сделать, это пройти через этоsentence
и определить, какое слово имеет заданные символы Unicode.
Пример -
sentence = 'AASFG BBBSDC FEKGG SDFGF'
Предположим, текст выше не является английским Unicode, и мне нужно найти слова, заканчивающиеся наGF
затем вернуть целое слово (может быть указателем этого слова).
search = 'SDFGF'
Точно так же мне нужно найти слова, начинающиеся сBB
получить слово этого.
search2 = 'BBBSDC'