Как измерить время внутреннего ядра в NVIDIA CUDA?

Я хочу измерять время внутреннего ядра графического процессора, как его измерить в NVIDIA CUDA? например

__global__ void kernelSample()
{
  some code here
  get start time 
  some code here 
  get stop time 
  some code here
}

Ответы на вопрос(2)

Ваш ответ на вопрос