Tupel mit nltk extrahieren?
eim Lesen der Dokumentation von nltk habe ich festgestellt, dass es möglich ist, Tupel mit @ zu extrahierestr2tuple()
. Als Beispiel nehme ich an, ich habe den folgenden Satz (eindeutig ist eine viel größere Datei):
sent = "pero pero CC " \
"tan tan RG " \
"antigua antiguo AQ0FS0 " \
"que que CS " \
"según según SPS00 " \
"mi mi DP1CSS " \
"madre madre NCFS000"
Ich möchte eine Liste von Tupeln extrahieren,
> ([antigua, AQ0FS0],[madre, NCFS000])
Das weibliche Adjektiv tag(AQ0FS0)
und das weibliche Nomen tag(NCFS000)
. Ist das möglich mitstr2tuple()
oder ein besserer Ansatz könnte ein regulärer Ausdruck sein?
Das ist, was ich versucht habe:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import nltk as nl
sent = "pero pero CC " \
"tan tan RG " \
"antigua antiguo AQ0FS0 " \
"que que CS " \
"según según SPS00 " \
"mi mi DP1CSS " \
"madre madre NCFS000"
nl.tag.str2tuple(t) for t in sent.split()