Jak mogę zmniejszyć wykorzystanie pamięci przez Scikit-Learn Vectorizer?

TFIDFVectorizer zajmuje tak dużo pamięci, wektoryzacja 470 MB 100k dokumentów zajmuje ponad 6 GB, jeśli przejdziemy do 21 milionów dokumentów, nie zmieści to 60 GB pamięci RAM.

Więc idziemy o HashingVectorizer, ale wciąż musimy wiedzieć, jak rozpowszechniać haszujący vectorizer.Fit i częściowe dopasowanie nic nie robi, jak pracować z Huge Corpus?

questionAnswers(2)

yourAnswerToTheQuestion