¿Por qué molestarse en conocer CUDA Warps?

Tengo GeForce GTX460 SE, por lo que es: 6 SM x 48 CUDA Cores = 288 CUDA Cores. Se sabe que en un Warp contiene 32 subprocesos, y que en un bloque simultáneamente (a la vez) solo se puede ejecutar un Warp. Es decir, en un solo multiprocesador (SM), se pueden ejecutar simultáneamente solo un Bloque, una Deformación y solo 32 subprocesos, incluso si hay 48 núcleos disponibles.

Y además, se puede usar un ejemplo para distribuir Thread y Block concretos threadIdx.x y blockIdx.x. Para asignarlos use kernel <<< Blocks, Threads >>> (). Pero, ¿cómo asignar un número específico de Warp-s y distribuirlos, y si no es posible, entonces por qué molestarse en saber acerca de Warps?

Respuestas a la pregunta(2)

Su respuesta a la pregunta