Manera fácil de usar opciones paralelas de funciones scikit-learn en HPC
En muchas funciones de scikit-learn se implementó una paralelización fácil de usar. Por ejemplo ensklearn.cross_validation.cross_val_score
solo pasa el número deseado de trabajos computacionales enn_jobs
argumento. Y para PC con procesador multinúcleo funcionará muy bien. ¿Pero si quiero usar esa opción en un clúster de alto rendimiento (con el paquete OpenMPI instalado y usando SLURM para la gestión de recursos)? Que yo sésklearn
usosjoblib
para la paralelización, que utilizamultiprocessing
. Y, como sé (de esto, por ejemplo,Python multiprocesamiento dentro de mpi) Programas Python en paralelo conmultiprocessing
fácil de escalar toda la arquitectura MPI conmpirun
utilidad. ¿Puedo difundir el cálculo desklearn
funciona en varios nodos computacionales simplemente usandompirun
yn_jobs
¿argumento?