Manera fácil de usar opciones paralelas de funciones scikit-learn en HPC

Question

Jul 27, 2016, 12:43 AM

parallel-processing scikit-learn cluster-computing python multiprocessing

Manera fácil de usar opciones paralelas de funciones scikit-learn en HPC

En muchas funciones de scikit-learn se implementó una paralelización fácil de usar. Por ejemplo ensklearn.cross_validation.cross_val_score solo pasa el número deseado de trabajos computacionales enn_jobs argumento. Y para PC con procesador multinúcleo funcionará muy bien. ¿Pero si quiero usar esa opción en un clúster de alto rendimiento (con el paquete OpenMPI instalado y usando SLURM para la gestión de recursos)? Que yo sésklearn usosjoblib para la paralelización, que utilizamultiprocessing. Y, como sé (de esto, por ejemplo,Python multiprocesamiento dentro de mpi) Programas Python en paralelo conmultiprocessing fácil de escalar toda la arquitectura MPI conmpirun utilidad. ¿Puedo difundir el cálculo desklearn funciona en varios nodos computacionales simplemente usandompirun yn_jobs ¿argumento?