As rotinas CULA podem ser chamadas de kernels de dispositivos?

Então, eu estou tentando ver se consigo algum aumento significativo de velocidade usando uma GPU para resolver um pequeno sistema de equações superdeterminado, resolvendo um grupo ao mesmo tempo. Meu algoritmo atual envolve o uso de uma função de decomposição de LU da biblioteca CULA Dense que também precisa alternar entre a GPU e a CPU para inicializar e executar as funções CULA. Eu gostaria de poder chamar as funções CULA dos meus kernels CUDA para que eu não tenha que voltar para a CPU e copiar os dados de volta. Isso também permitiria criar vários encadeamentos que estão trabalhando em conjuntos de dados diferentes para resolver vários sistemas simultaneamente. Minha pergunta é posso chamar funções CULA de funções do dispositivo? Eu sei que é possível com CUBLAS e algumas das outras bibliotecas CUDA.

Obrigado!

questionAnswers(1)

yourAnswerToTheQuestion