Error al extraer frases usando Gensim
Estoy tratando de obtener los bigrams en las oraciones usando frases en Gensim de la siguiente manera.
from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present"]
sentence_stream = [doc.split(" ") for doc in documents]
#print(sentence_stream)
bigram = Phrases(sentence_stream, min_count=1, threshold=2, delimiter=b' ')
bigram_phraser = Phraser(bigram)
for sent in sentence_stream:
tokens_ = bigram_phraser[sent]
print(tokens_)
A pesar de que atrapa "nuevo", "york" como "nueva york", no atrapa "máquina", aprendiendo como "aprendizaje automático"
Sin embargo, en elejemplo mostrado en el sitio web de Gensim pudieron captar las palabras "máquina", "aprendizaje" como "aprendizaje automático".
Por favor, hágame saber cómo obtener "aprendizaje automático" como bigram en el ejemplo anterior