Какой самый эффективный способ транспонировать матрицу в CUDA?
у меня естьM*N матрицу памяти хоста, и после копирования в память устройства ее нужно переместить вN*M матрица. Есть ли какой-нибудь cuda (cuBLAS ...) API, который делает это? Я использую CUDA 4. Спасибо!