Encontre max / min em CUDA sem passá-lo para a CPU

Eu preciso encontrar o índice do elemento máximo em uma matriz de carros alegóricos. Eu estou usando a função "cublasIsamax", mas isso retorna o índice para a CPU, e isso está diminuindo o tempo de execução do aplicativo.

Existe uma maneira de calcular esse índice com eficiência e armazená-lo na GPU?

Obrigado!