Summieren der Zeilen einer Matrix (in Zeilen- oder Spaltenreihenfolge gespeichert) in CUDA

Ich arbeite an dem Problem, die Zeilen einer Matrix in CUDA zu summieren. Ich gebe das folgende Beispiel.

Angenommen, Sie haben Folgendes20 * 4 Array:

1 2 3 4
4 1 2 3
3 4 1 2 
.
1 2 3 4
.
.
.
.
.
.
.
.
2 1 3 4

Nachdem ich das 2d-Array auf ein 1d-Array reduziert habe (entweder in Zeilen- oder Spalten-Hauptreihenfolge), muss ich jedem Thread eine andere Zeile zuweisen und die Kosten für diese Zeile berechnen.

Zum Beispiel
- Thread 1 sollte die Kosten für berechnen1 2 3 4
- Thread 2 sollte die Kosten für berechnen4 1 2 3

Wie kann ich das in CUDA?

Vielen Dank für die Antwort

Antworten auf die Frage(1)

Ihre Antwort auf die Frage