Wie wird ein CUDA-Kernel gestartet?

Ich habe eine einfache CUDA-Anwendung erstellt, um zwei Matrizen hinzuzufügen. Es wird gut kompiliert. Ich möchte wissen, wie der Kernel von allen Threads gestartet wird und wie der Fluss in CUDA sein wird. Ich meine, auf welche Weise wird jeder Thread jedes Element der Matrizen ausführen.

Ich weiß, dass dies ein sehr grundlegendes Konzept ist, aber ich weiß das nicht. Ich bin verwirrt über den Fluss.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage