multithreaded blas em python / numpy
Estou tentando implementar um grande número de multiplicações matriz-matriz em Python. Inicialmente, eu assumi que o NumPy usaria automaticamente minhas bibliotecas BLAS encadeadas desde que eu a construí contra essas bibliotecas. No entanto, quando olho paratop ou qualquer outra coisa, parece que o código não usa threadin
Alguma idéia do que está errado ou o que posso fazer para usar facilmente o desempenho do BLA