Encuentre max / min en CUDA sin pasarlo a la CPU

Necesito encontrar el índice del elemento máximo en una matriz de flotadores. Estoy usando la función "cublasIsamax", pero esto devuelve el índice a la CPU, y esto está ralentizando el tiempo de ejecución de la aplicación.

¿Hay una manera de calcular este índice de manera eficiente y almacenarlo en la GPU?

¡Gracias!

Respuestas a la pregunta(2)

Su respuesta a la pregunta