Поиск символов Юникода в Python

Question

Aug 04, 2013, 02:39 PM

Поиск символов Юникода в Python

Я работаю над проектом НЛП на основе Python / NLTK с неанглийским текстом Unicode. Для этого мне нужно найти строку Юникода внутри предложения.

Существует.текст файл сохранен с некоторыми неанглийскими предложениями юникода. Использование NLTKPunktSentenceTokenizer я сломал их и сохранил в списке питонов.

sentences = PunktSentenceTokenizer().tokenize(text)

Теперь я могу перебрать список и получить каждыйsentence отдельно.

Что мне нужно сделать, это пройти через этоsentence и определить, какое слово имеет заданные символы Unicode.

Пример -

sentence = 'AASFG BBBSDC FEKGG SDFGF'

Предположим, текст выше не является английским Unicode, и мне нужно найти слова, заканчивающиеся наGF затем вернуть целое слово (может быть указателем этого слова).

search = 'SDFGF'

Точно так же мне нужно найти слова, начинающиеся сBB получить слово этого.

search2 = 'BBBSDC'

Поиск символов Юникода в Python

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Поиск символов Юникода в Python

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы