Finden Sie max / min in CUDA, ohne es an die CPU weiterzuleiten
Ich muss den Index des maximalen Elements in einem Array von Floats finden. Ich benutze die Funktion "cublasIsamax", aber dies gibt den Index an die CPU zurück und dies verlangsamt die Laufzeit der Anwendung.
Gibt es eine Möglichkeit, diesen Index effizient zu berechnen und in der GPU zu speichern?
Vielen Dank!