NLTK Context Free Grammar Genaration

Question

Jul 17, 2013, 11:06 AM

python nlp context-free-grammar parsing nltk

NLTK Context Free Grammar Genaration

Estoy trabajando en un analizador no inglés con caracteres Unicode. Para eso, decidí usar NLTK.

Pero requiere una gramática libre de contexto predefinida como se muestra a continuación:

  S -> NP VP
  VP -> V NP | V NP PP
  PP -> P NP
  V -> "saw" | "ate" | "walked"
  NP -> "John" | "Mary" | "Bob" | Det N | Det N PP
  Det -> "a" | "an" | "the" | "my"
  N -> "man" | "dog" | "cat" | "telescope" | "park"
  P -> "in" | "on" | "by" | "with"

En mi aplicación, se supone que debo minimizar la codificación difícil con el uso de una gramática basada en reglas. Por ejemplo, puedo asumir cualquier palabra que termine con-ed o-En g como un verbo. Así que debería funcionar para cualquier contexto dado.

¿Cómo puedo alimentar tales reglas de gramática a NLTK? ¿O generarlos dinámicamente usando la máquina de estados finitos?