Многопроцессорная Scikit-Learn

Question

Oct 25, 2012, 12:10 PM

numpy scikit-learn multithreading python machine-learning

Многопроцессорная Scikit-Learn

Я получил linearsvc, работающий против тренировочного набора и тестового набора, используяload_file Метод, который я пытаюсь заставить его работать на многопроцессорной среде.

Как я могу получить многопроцессорную работу наLinearSVC().fit() LinearSVC().predict()? Я еще не очень знаком с типами scikit-learn.

Я также думаю о разделении семплов на несколько массивов, но я не знаком с массивами numpy и структурами данных scikit-learn.

Делая это, вам будет легче поместить в multiprocessing.pool (), при этом разбить сэмплы на куски, обучить их и объединить обученные наборы позже, сработает ли это?

РЕДАКТИРОВАТЬ: Вот мой сценарий:

скажем, у нас есть 1 миллион файлов в обучающем семпле, когда мы хотим распределить обработку Tfidfvectorizer на несколько процессоров, мы должны разделить эти семплы (для моего случая это будет только две категории, поэтому, скажем, 500000 семплов для обучения) , Мой сервер имеет 24 ядра с 48 ГБ, поэтому я хочу разбить каждую тему на количество кусков 1000000/24 и обработать на них Tfidfvectorizer. Таким образом, я бы сделал тестирование набора образцов, а также SVC.fit () и решил (). Имеет ли это смысл?

Благодарю.

PS: Пожалуйста, не закрывайте это.

Многопроцессорная Scikit-Learn

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Многопроцессорная Scikit-Learn

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы