Czy funkcje jądra cublas zostaną automatycznie zsynchronizowane z hostem?

Ogólne pytanie o cublas. W przypadku pojedynczego wątku, jeśli nie ma transferu pamięci z GPU do CPU (np. CublasGetVector), czy funkcje jądra cublas (np. CublasDgemm) będą automatycznie synchronizowane z hostem?

    cublasDgemm();
//cublasGetVector();
    host_functions()

Co więcej, między dwoma sąsiednimi wywołaniami jądra?

cublasDgemm();
cublasDgemm();

a co z zsynchronizowanym transferem, który nie dotyczy globalnej pamięci używanej w poprzednim jądrze?

cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);

questionAnswers(1)

yourAnswerToTheQuestion