Como um kernel CUDA é lançado?

Eu criei um aplicativo CUDA simples para adicionar duas matrizes. Está compilando bem. Eu quero saber como o kernel será lançado por todos os threads e qual será o fluxo dentro do CUDA? Quer dizer, de que maneira cada thread irá executar cada elemento das matrizes.

Eu sei que este é um conceito muito básico, mas eu não sei disso. Estou confuso em relação ao fluxo.

questionAnswers(3)

yourAnswerToTheQuestion