¿Cuál es la forma más eficiente de transponer una matriz en CUDA?
tengo unM*N
matriz de memoria del host, y después de copiar en la memoria del dispositivo, necesito que se transponga a unN*M
matriz. ¿Hay alguna API cuda (cuBLAS ...) haciendo eso? Estoy usando CUDA 4. ¡Gracias!