Cuda, ordem de thread executável em um bloco 3D

Como título, gostaria de saber a ordem correta de execução, caso tenhamos um bloco 3D

Eu acho que para lembrar que eu já li algo sobre isso, mas foi há algum tempo atrás, eu não lembro onde, mas estava vindo por alguém que não parecia tão confiável ..

De qualquer forma, gostaria de ter algumas confirmações sobre isso.

É como o seguinte (dividido em warps)?

[0, 0, 0] ... [blockDim.x, 0, 0] - [0, 1, 0] ... [blockDim.x, 1, 0] - (...) - [0, blockDim .y, 0] ... [blockDim.x, blockDim.y, 0] - [0, 0, 1] ... [blockDim.x, 0, 1] - (...) - [0, blockDim .y, 1] ... [blockDim.x, blockDim.y, 1] - (...) - [blockDim.x, blockDim.y, blockDim.z]

questionAnswers(1)

yourAnswerToTheQuestion