Por que o GK110 possui 192 núcleos e 4 warps?

Eu queria ter uma idéia da arquitetura de Kepler, mas isso não faz sentido para mim.

Se um warp tiver 32 threads, e 4 deles forem agendados / executados, isso significa que 128 núcleos estão em uso e 64 ficam ociosos. No whitepaper, dizia algo sobre instruções independentes, então os 64 núcleos estão reservados para essas instruções?

Nesse caso, alguém pode me dar um exemplo de quando uma instrução independente seria necessária?

questionAnswers(1)

yourAnswerToTheQuestion