Qual é a maneira mais eficiente de transpor uma matriz no CUDA?
eu tenho umM*N
matriz de memória do host, e após a cópia em uma memória do dispositivo, eu preciso que ele seja transpostoN*M
matriz. Existe alguma API cuda (cuBLAS ...) fazendo isso? Eu estou usando o CUDA 4. Obrigado!