multithreaded blas em python / numpy

Estou tentando implementar um grande número de multiplicações matriz-matriz em Python. Inicialmente, eu assumi que o NumPy usaria automaticamente minhas bibliotecas BLAS encadeadas desde que eu a construí contra essas bibliotecas. No entanto, quando olho paratop ou qualquer outra coisa, parece que o código não usa threadin

Alguma idéia do que está errado ou o que posso fazer para usar facilmente o desempenho do BLA

questionAnswers(4)

yourAnswerToTheQuestion