gensim - Doc2Vec: MemoryError cuando se entrena en Wikipedia en inglés

Extraje 145,185,965 oraciones (14GB) del volcado de wikipedia en inglés y quiero entrenar un modelo Doc2Vec basado en estas oraciones. Lamentablemente, tengo 'solo' 32 GB de RAM y obtengo una MemoryError cuando intentas entrenar. Incluso si configuro el min_count a 50, gensim me dice que necesitaría más de 150 GB de RAM. No creo que seguir aumentando min_count sea una buena idea, porque el modelo resultante no sería muy bueno (solo una suposición). Pero de todos modos, lo intentaré con 500 para ver si la memoria es suficiente entonces.

¿Hay alguna posibilidad de entrenar un modelo tan grande con RAM limitada?

Aquí está mi código actual

corpus = TaggedLineDocument(preprocessed_text_file)
model = Doc2Vec(vector_size=300, 
                window=15, 
                min_count=50,  #1
                workers=16, 
                dm=0, 
                alpha=0.75, 
                min_alpha=0.001, 
                sample=0.00001,
                negative=5)
model.build_vocab(corpus)
model.train(corpus, 
            epochs=400, 
            total_examples=model.corpus_count, 
            start_alpha=0.025, 
            end_alpha=0.0001)

¿Hay algunos errores obvios que estoy haciendo? ¿Usarlo completamente mal?

También podría intentar reducir el tamaño del vector, pero creo que esto dará resultados mucho peores ya que la mayoría de los papeles usan vectores 300D.

Respuestas a la pregunta(1)

Su respuesta a la pregunta