As funções do kernel do cublas serão automaticamente sincronizadas com o host?

Apenas uma pergunta geral sobre cublas. Para um único encadeamento, se não houver transferência de memória da GPU para a CPU (por exemplo, cublasGetVector), as funções do kernel da cublas (por exemplo, cublasDgemm) serão automaticamente sincronizadas com o host?

    cublasDgemm();
//cublasGetVector();
    host_functions()

Além disso, o que acontece entre duas chamadas de kernel adjacentes?

cublasDgemm();
cublasDgemm();

e, que tal uma transferência sincronizada que não envolva a memória global usada no kernel anterior?

cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);

questionAnswers(1)

yourAnswerToTheQuestion