¿Cómo pueden los bloques concurrentes ejecutar un único multiprocesador de transmisión GPU?

Estaba estudiando sobre la estructura de programación de CUDA y lo que sentí después de estudiar es eso; después de crear los bloques y subprocesos, cada uno de estos bloques se asigna a cada uno de los multiprocesadores de transmisión (por ejemplo, estoy usando GForce 560Ti, que tiene 14 multiprocesadores de transmisión, por lo que al mismo tiempo se pueden asignar 14 bloques a todos los multiprocesadores de transmisión). Pero como estoy pasando por varios materiales en línea como este:

http://moss.csc.ncsu.edu/~mueller/cluster/nvidia/GPU+CUDA.pdf

donde se ha mencionado que varios bloques pueden ejecutarse simultáneamente en un multiprocesador. Básicamente estoy muy confundido con la ejecución de los subprocesos y los bloques en los multiprocesadores de transmisión. Sé que la asignación de bloques y la ejecución de los subprocesos son absolutamente arbitrarios, pero me gustaría que la asignación de los bloques y los subprocesos realmente ocurra para que pueda ocurrir la ejecución concurrente.

Respuestas a la pregunta(1)

Su respuesta a la pregunta