¿Cuántos ciclos de latencia de memoria por tipo de acceso a memoria en OpenCL / CUDA?

Revisé la guía de programación y la guía de mejores prácticas y mencionó que el acceso a la memoria global demora entre 400 y 600 ciclos. No vi mucho en los otros tipos de memoria como caché de textura, caché constante, memoria compartida. Los registros tienen 0 latencia de memoria.

Creo que el caché constante es lo mismo que los registros si todos los hilos usan la misma dirección en el caché constante. En el peor de los casos, no estoy tan seguro.

¿La memoria compartida es igual a los registros siempre que no haya conflictos bancarios? Si hay, ¿cómo se desarrolla la latencia?

¿Qué pasa con el caché de texturas?

Respuestas a la pregunta(2)

Su respuesta a la pregunta