Retendo o produto de ponto no GPGPU usando a rotina CUBLAS

Estou escrevendo um código para calcular o produto de ponto de dois vetores usando a rotina CUBLAS do produto de ponto, mas retorna o valor na memória do host. Eu quero usar o produto de ponto para computação adicional somente em GPGPU. Como posso fazer o valor residir em GPGPU apenas e usá-lo para cálculos adicionais sem fazer uma cópia explícita da CPU para GPGPU?

questionAnswers(2)

yourAnswerToTheQuestion