¿Cómo puedo reducir el uso de memoria de los vectorizadores Scikit-Learn?

Question

Jul 08, 2013, 11:36 PM

machine-learning scikit-learn python numpy scipy

¿Cómo puedo reducir el uso de memoria de los vectorizadores Scikit-Learn?

TFIDFVectorizer toma tanta memoria, vectorizar 470 MB de documentos de 100k toma más de 6 GB, si vamos a 21 millones de documentos, no cabrán 60 GB de RAM que tenemos.

Así que optamos por HashingVectorizer, pero aún necesitamos saber cómo distribuir el vectorizador de hash. ¿El ajuste y ajuste parcial no hacen nada, entonces, cómo trabajar con Huge Corpus?