Какой самый эффективный способ транспонировать матрицу в CUDA?

у меня естьM*N матрицу памяти хоста, и после копирования в память устройства ее нужно переместить вN*M матрица. Есть ли какой-нибудь cuda (cuBLAS ...) API, который делает это? Я использую CUDA 4. Спасибо!

Ответы на вопрос(3)

Ваш ответ на вопрос