Cómo perfilar la aplicación OpenCL con CUDA 8.0 nvprof

Estoy tratando de perfilar la aplicación OpenCL,a.out, en un sistema con NVIDIA TITAN X y CUDA 8.0.

Si fue la aplicación CUDA,nvprof ./a.out seria suficiente. Pero descubrí que esto no funciona con la aplicación OpenCL, con un mensaje "No se perfilaron núcleos".

Hasta CUDA 7.5, utilicé con éxitoCOMPUTE_PROFILE=1 siguiendoesta. Desafortunadamente, la documentación dice "El soporte para el generador de perfiles de línea de comandos que usa la variable de entorno COMPUTE_PROFILE se ha eliminado en la versión CUDA 8.0".

La pregunta es, ¿hay alguna otra manera que no sea degradar CUDA para perfilar la aplicación OpenCL con nvprof?

Respuestas a la pregunta(1)

Su respuesta a la pregunta