¿Cómo medir el tiempo interno del kernel en NVIDIA CUDA?

Quiero medir el tiempo en el kernel interno de la GPU, ¿cómo medirlo en NVIDIA CUDA? p.ej.

__global__ void kernelSample()
{
  some code here
  get start time 
  some code here 
  get stop time 
  some code here
}