Czy scikit-learn nadaje się do zadań dużych zbiorów danych?

Question

Jun 10, 2013, 08:19 AM

Czy scikit-learn nadaje się do zadań dużych zbiorów danych?

Pracuję nad zadaniem TREC polegającym na wykorzystaniu technik uczenia maszynowego, w których zestaw danych składa się z ponad 5 terabajtów dokumentów internetowych, z których planowane jest wydobycie wektorów woreczków słów.scikit-learn ma niezły zestaw funkcji, które wydają się pasować do moich potrzeb, ale nie wiem, czy będzie dobrze skalować się do obsługi dużych zbiorów danych. Na przykład jestHashingVectorizer jest w stanie obsłużyć 5 terabajtów dokumentów i czy można je zrównoleglić? Co więcej, jakie są alternatywy dla zadań uczenia maszynowego na dużą skalę?