As funções do kernel do cublas serão automaticamente sincronizadas com o host?
Apenas uma pergunta geral sobre cublas. Para um único encadeamento, se não houver transferência de memória da GPU para a CPU (por exemplo, cublasGetVector), as funções do kernel da cublas (por exemplo, cublasDgemm) serão automaticamente sincronizadas com o host?
cublasDgemm();
//cublasGetVector();
host_functions()
Além disso, o que acontece entre duas chamadas de kernel adjacentes?
cublasDgemm();
cublasDgemm();
e, que tal uma transferência sincronizada que não envolva a memória global usada no kernel anterior?
cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);