Найти максимум / мин в CUDA, не передавая его в процессор
Мне нужно найти индекс максимального элемента в массиве с плавающей точкой. Я использую функцию "cublasIsamax", но это возвращает индекс в ЦП, и это замедляет время работы приложения.
Есть ли способ эффективно рассчитать этот индекс и сохранить его в графическом процессоре?
Спасибо!