¿Las funciones del núcleo de cublas se sincronizarán automáticamente con el host?

Solo una pregunta general sobre cublas. Para un solo hilo, si no hay transferencia de memoria de la GPU a la CPU (por ejemplo, cublasGetVector), ¿se sincronizarán las funciones del núcleo de cublas (por ejemplo, cublasDgemm) con el host?

    cublasDgemm();
//cublasGetVector();
    host_functions()

Además, ¿qué hay entre las dos llamadas adyacentes al núcleo?

cublasDgemm();
cublasDgemm();

y, ¿qué pasa con una transferencia sincronizada que no involucra la memoria global utilizada en el kernel anterior?

cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);

Respuestas a la pregunta(1)

Su respuesta a la pregunta