). Да, от 0,025 до 0,0001 - это выбор по умолчанию / общий альфа.

лек 145 185 965 предложений (14 ГБ) из дампа английской Википедии и хочу обучить модель Doc2Vec на основе этих предложений. К сожалению, у меня «только» 32 ГБ оперативной памяти и я получаюMemoryError при попытке тренироваться. Даже если я установлю min_count равным 50, gensim скажет мне, что ему потребуется более 150 ГБ ОЗУ. Я не думаю, что дальнейшее увеличение min_count было бы хорошей идеей, потому что получающаяся модель была бы не очень хорошей (только предположение). Но в любом случае, я попробую это с 500, чтобы увидеть, достаточно ли памяти тогда.

Есть ли возможность тренировать такую ​​большую модель с ограниченной оперативной памятью?

Вот мой текущий код:

corpus = TaggedLineDocument(preprocessed_text_file)
model = Doc2Vec(vector_size=300, 
                window=15, 
                min_count=50,  #1
                workers=16, 
                dm=0, 
                alpha=0.75, 
                min_alpha=0.001, 
                sample=0.00001,
                negative=5)
model.build_vocab(corpus)
model.train(corpus, 
            epochs=400, 
            total_examples=model.corpus_count, 
            start_alpha=0.025, 
            end_alpha=0.0001)

Есть ли какие-то очевидные ошибки, которые я делаю? Использовать это совершенно неправильно?

Я мог бы также попытаться уменьшить размер вектора, но я думаю, что это приведет к гораздо худшим результатам, поскольку в большинстве работ используются векторы 300D.

Ответы на вопрос(1)

Ваш ответ на вопрос