Encuentre max / min en CUDA sin pasarlo a la CPU
Necesito encontrar el índice del elemento máximo en una matriz de flotadores. Estoy usando la función "cublasIsamax", pero esto devuelve el índice a la CPU, y esto está ralentizando el tiempo de ejecución de la aplicación.
¿Hay una manera de calcular este índice de manera eficiente y almacenarlo en la GPU?
¡Gracias!