multithreaded blas en python / numpy

Estoy tratando de implementar una gran cantidad de multiplicaciones matriz-matriz en Python. Inicialmente, asumí que NumPy usaría automáticamente mis bibliotecas BLAS roscadas, ya que lo construí contra esas bibliotecas. Sin embargo, cuando miro aparte superio o algo más, parece que el código no utiliza subprocesos en absoluto.

Alguna idea de qué está mal o qué puedo hacer para usar fácilmente el rendimiento de BLA

Respuestas a la pregunta(4)

Su respuesta a la pregunta