Как я могу уменьшить использование памяти Scikit-Learn Vectorizer?

Question

Jul 08, 2013, 09:36 PM

scipy scikit-learn python machine-learning numpy

Как я могу уменьшить использование памяти Scikit-Learn Vectorizer?

TFIDFVectorizer занимает столько памяти, что для векторизации 470 МБ документов объемом 100 КБ требуется более 6 ГБ, если мы отправим 21 миллион документов, это не поместится в 60 ГБ оперативной памяти, которая у нас есть.

Итак, мы идем на HashingVectorizer, но все еще должны знать, как распределить хеширующий векторизатор. Подгонка и частичное подгонка ничего не делают, так как работать с огромным корпусом?

Как я могу уменьшить использование памяти Scikit-Learn Vectorizer?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как я могу уменьшить использование памяти Scikit-Learn Vectorizer?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы