Tupel mit nltk extrahieren?

Question

Sep 30, 2014, 07:36 AM

Tupel mit nltk extrahieren?

eim Lesen der Dokumentation von nltk habe ich festgestellt, dass es möglich ist, Tupel mit @ zu extrahierestr2tuple(). Als Beispiel nehme ich an, ich habe den folgenden Satz (eindeutig ist eine viel größere Datei):

sent = "pero pero CC " \
        "tan tan RG " \
        "antigua antiguo AQ0FS0 " \
        "que que CS " \
        "según según SPS00 " \
        "mi mi  DP1CSS " \
        "madre madre NCFS000"

Ich möchte eine Liste von Tupeln extrahieren,

> ([antigua, AQ0FS0],[madre, NCFS000])

Das weibliche Adjektiv tag(AQ0FS0) und das weibliche Nomen tag(NCFS000). Ist das möglich mitstr2tuple() oder ein besserer Ansatz könnte ein regulärer Ausdruck sein?

Das ist, was ich versucht habe:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import nltk as nl

sent = "pero pero CC " \
              "tan tan RG " \
              "antigua antiguo AQ0FS0 " \
              "que que CS " \
              "según según SPS00 " \
              "mi mi  DP1CSS " \
              "madre madre NCFS000"

nl.tag.str2tuple(t) for t in sent.split()