¿Cómo puedo reducir el uso de memoria de los vectorizadores Scikit-Learn?

TFIDFVectorizer toma tanta memoria, vectorizar 470 MB de documentos de 100k toma más de 6 GB, si vamos a 21 millones de documentos, no cabrán 60 GB de RAM que tenemos.

Así que optamos por HashingVectorizer, pero aún necesitamos saber cómo distribuir el vectorizador de hash. ¿El ajuste y ajuste parcial no hacen nada, entonces, cómo trabajar con Huge Corpus?

Respuestas a la pregunta(2)

Su respuesta a la pregunta