Как загрузить предложения в Python Gensim?
Я пытаюсь использоватьword2vec
модуль изgensim
библиотека обработки естественного языка в Python.
Документы говорят, чтобы инициализировать модель:
from gensim.models import word2vec
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
Какой формат делаетgensim
ожидать ввода предложений? У меня есть сырой текст
"the quick brown fox jumps over the lazy dogs"
"Then a cop quizzed Mick Jagger's ex-wives briefly."
etc.
Какую дополнительную обработку мне нужно опубликовать вword2fec
?
ОБНОВИТЬ: Вот что я попробовал. Когда он загружает предложения, я ничего не получаю.
>>> sentences = ['the quick brown fox jumps over the lazy dogs',
"Then a cop quizzed Mick Jagger's ex-wives briefly."]
>>> x = word2vec.Word2Vec()
>>> x.build_vocab([s.encode('utf-8').split( ) for s in sentences])
>>> x.vocab
{}