Multiprocessing scikit-learn

Question

Oct 25, 2012, 02:10 PM

scikit-learn multithreading python machine-learning numpy

Multiprocessing scikit-learn

Dostałem linearsvc działający przeciwko zestawowi treningowemu i użyciu zestawu testowegoload_file Metoda, którą próbuję uzyskać, działa na środowisku Multiprocessor.

Jak mogę uzyskać pracę wieloprocesorowąLinearSVC().fit() LinearSVC().predict()? Nie jestem jeszcze zaznajomiony z typami danych scikit-learn.

Myślę też o podziale próbek na wiele tablic, ale nie znam tablic liczbowych i struktur danych uczących się w scikitach.

Czyniąc to, łatwiej będzie umieścić w multiprocessing.pool (), dzięki czemu podziel się próbkami na kawałki, wyszkol je i połącz wyszkolone cofanie później, czy to zadziała?

EDYCJA: Oto mój scenariusz:

powiedzmy, że mamy 1 milion plików w zestawie próbek szkoleniowych, gdy chcemy dystrybuować przetwarzanie Tfidfvectorizera na kilku procesorach, musimy podzielić te próbki (w moim przypadku będzie on miał tylko dwie kategorie, więc powiedzmy 500000 każdej próbki do treningu) . Mój serwer ma 24 rdzenie o 48 GB, więc chcę podzielić każdy temat na kilka kawałków 1000000/24 i przetworzyć na nich Tfidfvectorizer. Tak zrobiłbym testowanie zestawu próbek, a także SVC.fit () i zdecyduj (). Czy jest sens?

Dzięki.

PS: Nie zamykaj tego.