Encontre max / min em CUDA sem passá-lo para a CPU
Eu preciso encontrar o índice do elemento máximo em uma matriz de carros alegóricos. Eu estou usando a função "cublasIsamax", mas isso retorna o índice para a CPU, e isso está diminuindo o tempo de execução do aplicativo.
Existe uma maneira de calcular esse índice com eficiência e armazená-lo na GPU?
Obrigado!