¿Cómo se lanza un kernel CUDA?

He creado una aplicación CUDA simple para agregar dos matrices. Se está compilando bien. Quiero saber cómo se lanzará el kernel con todos los subprocesos y ¿cuál será el flujo dentro de CUDA? Quiero decir, de qué manera cada hilo ejecutará cada elemento de las matrices.

Sé que este es un concepto muy básico, pero no lo sé. Estoy confundido con respecto al flujo.

Respuestas a la pregunta(3)

Su respuesta a la pregunta