Извлечение кортежей с помощью nltk?

Question

Sep 30, 2014, 07:36 AM

Извлечение кортежей с помощью nltk?

Читая документацию nltk, я обнаружил, что можно извлечь кортежи сstr2tuple(), В качестве примера предположим, что у меня есть следующее предложение (очевидно, это гораздо больший файл):

sent = "pero pero CC " \
        "tan tan RG " \
        "antigua antiguo AQ0FS0 " \
        "que que CS " \
        "según según SPS00 " \
        "mi mi  DP1CSS " \
        "madre madre NCFS000"

Я хотел бы извлечь список кортежей, например:

> ([antigua, AQ0FS0],[madre, NCFS000])

Женский прилагательное тег(AQ0FS0) и женский тег существительного(NCFS000), Это возможно сstr2tuple() или лучшим подходом может быть использование регулярного выражения?

Вот что я пробовал:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import nltk as nl

sent = "pero pero CC " \
              "tan tan RG " \
              "antigua antiguo AQ0FS0 " \
              "que que CS " \
              "según según SPS00 " \
              "mi mi  DP1CSS " \
              "madre madre NCFS000"

nl.tag.str2tuple(t) for t in sent.split()

Извлечение кортежей с помощью nltk?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Извлечение кортежей с помощью nltk?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы