NLTK словосочетания для конкретных слов
Я знаю, как получать биграммы и триграммы, используя NLTK, и я применяю их к своим собственным корпусам. Код ниже. Я '
Однако я не уверен насчет (1), как получить словосочетания для конкретного слова? (2) имеет ли NLTK метрику коллокации на основе логарифмического отношения правдоподобия?
import nltk
from nltk.collocations import *
from nltk.tokenize import word_tokenize
text = "this is a foo bar bar black sheep foo bar bar black sheep foo bar bar black sheep shep bar bar black sentence"
trigram_measures = nltk.collocations.TrigramAssocMeasures()
finder = TrigramCollocationFinder.from_words(word_tokenize(text))
for i in finder.score_ngrams(trigram_measures.pmi):
print i