¿Cómo observar los eventos y métricas de CUDA para una subsección de un ejecutable (por ejemplo, solo durante un tiempo de ejecución del núcleo)?

Estoy familiarizado con el uso de nvprof para acceder a los eventos y las métricas de un punto de referencia, por ejemplo,

nvprof --system-profiling on --print-gpu-trace -o (file name) --events inst_issued1 ./benchmarkname

los

system-profiling on --print-gpu-trace -o (filename)    

El comando proporciona marcas de tiempo para la hora de inicio, las horas de finalización del kernel, la potencia, la temperatura y guarda la información y los archivos nvvp para que podamos verla en el generador de perfiles visuales. Esto nos permite ver qué sucede en cualquier sección de un código, en particular cuando se está ejecutando un núcleo específico. Mi pregunta es esta ...

¿Hay alguna manera de aislar los eventos contados solo para una sección de la ejecución de referencia, por ejemplo, durante la ejecución de un kernel? En el comando anterior,

--events inst_issued1    

solo da las instrucciones contadas para todo el ejecutable. ¡Gracias!