Cuda rendimiento de copia cero

¿Alguien tiene experiencia con el análisis del rendimiento de las aplicaciones CUDA utilizando la copia cero (consulte aquí:Memoria fija predeterminada Vs memoria de copia cero) modelo de memoria?

Tengo un kernel que usa la función de copia cero y con NVVP veo lo siguiente:

Al ejecutar el kernel en un tamaño de problema promedio, obtengo una sobrecarga de repetición de instrucciones de 0.7%, así que nada importante. Y todo este 0.7% es una sobrecarga de reproducción de memoria global.

Cuando realmente aumenta el tamaño del problema, obtengo una sobrecarga de repetición de instrucciones de 95.7%, todo lo cual se debe a la sobrecarga de repetición de memoria global.

Sin embargo, la eficiencia de carga global y la eficiencia de la tienda global para la ejecución del kernel de tamaño de problema normal y la ejecución del kernel de tamaño de problema muy grande son las mismas. No estoy realmente seguro de qué hacer con esta combinación de métricas.

Lo principal de lo que no estoy seguro es de qué estadísticas en NVVP me ayudarán a ver qué sucede con la función de copia cero. ¿Alguna idea de qué tipo de estadísticas debo ver?

Respuestas a la pregunta(1)

Su respuesta a la pregunta