Cómo extraer frases del corpus usando gensim

Question

Mar 01, 2016, 07:30 AM

Cómo extraer frases del corpus usando gensim

Para preprocesar el corpus que estaba planeando extraer frases comunes del corpus, para esto intenté usarFrases modelo en gensim, probé el siguiente código pero no me da el resultado deseado.

Mi código

from gensim.models import Phrases
documents = ["the mayor of new york was there", "machine learning can be useful sometimes"]

sentence_stream = [doc.split(" ") for doc in documents]
bigram = Phrases(sentence_stream)
sent = [u'the', u'mayor', u'of', u'new', u'york', u'was', u'there']
print(bigram[sent])

Salida

[u'the', u'mayor', u'of', u'new', u'york', u'was', u'there']

Pero debería venir como

[u'the', u'mayor', u'of', u'new_york', u'was', u'there']

Pero cuando traté de imprimir vocabulario de datos del tren, puedo ver bigram, pero no funciona con datos de prueba, ¿dónde me estoy equivocando?

print bigram.vocab

defaultdict(<type 'int'>, {'useful': 1, 'was_there': 1, 'learning_can': 1, 'learning': 1, 'of_new': 1, 'can_be': 1, 'mayor': 1, 'there': 1, 'machine': 1, 'new': 1, 'was': 1, 'useful_sometimes': 1, 'be': 1, 'mayor_of': 1, 'york_was': 1, 'york': 1, 'machine_learning': 1, 'the_mayor': 1, 'new_york': 1, 'of': 1, 'sometimes': 1, 'can': 1, 'be_useful': 1, 'the': 1})