Извлечение кортежей с помощью nltk?
Читая документацию nltk, я обнаружил, что можно извлечь кортежи сstr2tuple()
, В качестве примера предположим, что у меня есть следующее предложение (очевидно, это гораздо больший файл):
sent = "pero pero CC " \
"tan tan RG " \
"antigua antiguo AQ0FS0 " \
"que que CS " \
"según según SPS00 " \
"mi mi DP1CSS " \
"madre madre NCFS000"
Я хотел бы извлечь список кортежей, например:
> ([antigua, AQ0FS0],[madre, NCFS000])
Женский прилагательное тег(AQ0FS0)
и женский тег существительного(NCFS000)
, Это возможно сstr2tuple()
или лучшим подходом может быть использование регулярного выражения?
Вот что я пробовал:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import nltk as nl
sent = "pero pero CC " \
"tan tan RG " \
"antigua antiguo AQ0FS0 " \
"que que CS " \
"según según SPS00 " \
"mi mi DP1CSS " \
"madre madre NCFS000"
nl.tag.str2tuple(t) for t in sent.split()