Quantos threads (ou itens de trabalho) podem ser executados ao mesmo temp

Sou novo na programação GPGPU e estou trabalhando com a implementação do OpenCL da NVIDI

minha pergunta era como calcular o limite de um dispositivo GPU (em número de threads
Pelo que entendi, existem vários grupos de trabalho (equivalentes a blocos no CUDA) que contêm vários itens de trabalho (~ thread cuda

Como obtenho o número de grupos de trabalho presentes no meu cartão (e que podem ser executados ao mesmo tempo) e o número de itens de trabalho presentes em um grupo de trabalho?

Para que CL_DEVICE_MAX_COMPUTE_UNITS corresponde?
As especificações khronos speeks de núcleos ("O número de núcleos de computação paralelos no dispositivo OpenCL.") Qual é a diferença com o núcleo CUDA fornecido na especificação da minha placa gráfica. No meu caso, o openCL fornece 14 e minha GeForce 8800 GT tem 112 núcleos, com base no site da NVIDI

CL_DEVICE_MAX_WORK_GROUP_SIZE (512 no meu caso) corresponde ao total de itens de trabalho fornecidos a um grupo de trabalho específico ou ao número de itens de trabalho que podem ser executados ao mesmo tempo em um grupo de trabalho?

Qualquer sugestão seria extremamente apreciad

questionAnswers(1)

yourAnswerToTheQuestion