Jak mogę zmniejszyć wykorzystanie pamięci przez Scikit-Learn Vectorizer?

Question

Jul 08, 2013, 11:36 PM

python machine-learning scipy scikit-learn numpy

Jak mogę zmniejszyć wykorzystanie pamięci przez Scikit-Learn Vectorizer?

TFIDFVectorizer zajmuje tak dużo pamięci, wektoryzacja 470 MB 100k dokumentów zajmuje ponad 6 GB, jeśli przejdziemy do 21 milionów dokumentów, nie zmieści to 60 GB pamięci RAM.

Więc idziemy o HashingVectorizer, ale wciąż musimy wiedzieć, jak rozpowszechniać haszujący vectorizer.Fit i częściowe dopasowanie nic nie robi, jak pracować z Huge Corpus?