Как я могу уменьшить использование памяти Scikit-Learn Vectorizer?

TFIDFVectorizer занимает столько памяти, что для векторизации 470 МБ документов объемом 100 КБ требуется более 6 ГБ, если мы отправим 21 миллион документов, это не поместится в 60 ГБ оперативной памяти, которая у нас есть.

Итак, мы идем на HashingVectorizer, но все еще должны знать, как распределить хеширующий векторизатор. Подгонка и частичное подгонка ничего не делают, так как работать с огромным корпусом?

Ответы на вопрос(2)

Ваш ответ на вопрос