Warum sich die Mühe machen, über CUDA Warps Bescheid zu wissen?

Ich habe GeForce GTX460 SE, also ist es: 6 SM x 48 CUDA-Kerne = 288 CUDA-Kerne. Es ist bekannt, dass in einem Warp 32 Threads enthalten sind und dass in einem Block gleichzeitig (zu einem Zeitpunkt) nur ein Warp ausgeführt werden kann. Das heißt, in einem einzelnen Multiprozessor (SM) können gleichzeitig nur ein Block, ein Warp und nur 32 Threads ausgeführt werden, auch wenn 48 Kerne verfügbar sind?

Ein Beispiel für die Verteilung von konkreten Threads und Blöcken kann auch threadIdx.x und blockIdx.x sein. Um sie zuzuweisen, verwenden Sie den Kernel <<< Blocks, Threads >>> (). Aber wie kann man eine bestimmte Anzahl von Warps zuweisen und verteilen, und wenn es nicht möglich ist, warum sollte man sich dann die Mühe machen, etwas über Warps zu erfahren?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage