Многопроцессорная Scikit-Learn
Я получил linearsvc, работающий против тренировочного набора и тестового набора, используяload_file
Метод, который я пытаюсь заставить его работать на многопроцессорной среде.
Как я могу получить многопроцессорную работу наLinearSVC().fit()
LinearSVC().predict()
? Я еще не очень знаком с типами scikit-learn.
Я также думаю о разделении семплов на несколько массивов, но я не знаком с массивами numpy и структурами данных scikit-learn.
Делая это, вам будет легче поместить в multiprocessing.pool (), при этом разбить сэмплы на куски, обучить их и объединить обученные наборы позже, сработает ли это?
РЕДАКТИРОВАТЬ: Вот мой сценарий:
скажем, у нас есть 1 миллион файлов в обучающем семпле, когда мы хотим распределить обработку Tfidfvectorizer на несколько процессоров, мы должны разделить эти семплы (для моего случая это будет только две категории, поэтому, скажем, 500000 семплов для обучения) , Мой сервер имеет 24 ядра с 48 ГБ, поэтому я хочу разбить каждую тему на количество кусков 1000000/24 и обработать на них Tfidfvectorizer. Таким образом, я бы сделал тестирование набора образцов, а также SVC.fit () и решил (). Имеет ли это смысл?
Благодарю.
PS: Пожалуйста, не закрывайте это.