Jak zmierzyć czas wewnętrznego jądra w NVIDIA CUDA?

Chcę zmierzyć czas wewnętrznego jądra GPU, jak go zmierzyć w NVIDIA CUDA? na przykład

__global__ void kernelSample()
{
  some code here
  get start time 
  some code here 
  get stop time 
  some code here
}