Um kernel CUDA poderia chamar uma função cublas?

Eu sei que soa estranho, mas aqui está o meu cenário:

Eu preciso fazer uma multiplicação matriz matricial (A (n * k) * B (k * n)), mas eu só preciso dos elementos diagonais a serem avaliados para a matriz de saída. Eu procurei biblioteca cublas e não encontrei qualquer nível 2 ou 3 funções que podem fazer isso. Então, decidi distribuir cada linha de A e cada coluna de B em threads CUDA. Para cada thread (idx), eu preciso calcular o produto do ponto "A [idx,:] * B [:, idx]" e salvá-lo como a saída diagonal correspondente. Agora, como esse produto de ponto também leva algum tempo, eu me pergunto se eu poderia de alguma forma chamar a função cublas aqui (digamos cublasSdot) para alcançá-lo.

Se eu perdi alguma função de cublas que pode atingir minha meta diretamente (apenas calcular os elementos diagonais para uma multiplicação matriz-matriz), essa questão poderia ser descartada.

questionAnswers(2)

yourAnswerToTheQuestion