Будут ли функции ядра cublas автоматически синхронизироваться с хостом?

Просто общий вопрос о кублах. Для одного потока, если нет передачи памяти от GPU к CPU (например, cublasGetVector), будут ли функции ядра cublas (например, cublasDgemm) автоматически синхронизироваться с хостом?

    cublasDgemm();
//cublasGetVector();
    host_functions()

Кроме того, как насчет двух соседних вызовов ядра?

cublasDgemm();
cublasDgemm();

и как насчет синхронизированной передачи, которая не включает глобальную память, использованную в предыдущем ядре?

cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);