). Да, от 0,025 до 0,0001 - это выбор по умолчанию / общий альфа.
лек 145 185 965 предложений (14 ГБ) из дампа английской Википедии и хочу обучить модель Doc2Vec на основе этих предложений. К сожалению, у меня «только» 32 ГБ оперативной памяти и я получаюMemoryError при попытке тренироваться. Даже если я установлю min_count равным 50, gensim скажет мне, что ему потребуется более 150 ГБ ОЗУ. Я не думаю, что дальнейшее увеличение min_count было бы хорошей идеей, потому что получающаяся модель была бы не очень хорошей (только предположение). Но в любом случае, я попробую это с 500, чтобы увидеть, достаточно ли памяти тогда.
Есть ли возможность тренировать такую большую модель с ограниченной оперативной памятью?
Вот мой текущий код:
corpus = TaggedLineDocument(preprocessed_text_file)
model = Doc2Vec(vector_size=300,
window=15,
min_count=50, #1
workers=16,
dm=0,
alpha=0.75,
min_alpha=0.001,
sample=0.00001,
negative=5)
model.build_vocab(corpus)
model.train(corpus,
epochs=400,
total_examples=model.corpus_count,
start_alpha=0.025,
end_alpha=0.0001)
Есть ли какие-то очевидные ошибки, которые я делаю? Использовать это совершенно неправильно?
Я мог бы также попытаться уменьшить размер вектора, но я думаю, что это приведет к гораздо худшим результатам, поскольку в большинстве работ используются векторы 300D.