Sumar las filas de una matriz (almacenadas en orden de fila mayor o de columna principal) en CUDA

Estoy trabajando en el problema sumando las filas de una matriz en CUDA. Te doy el siguiente ejemplo.

Supongamos tener lo siguiente20 * 4 formación:

1 2 3 4
4 1 2 3
3 4 1 2 
.
1 2 3 4
.
.
.
.
.
.
.
.
2 1 3 4

Después de aplanar la matriz 2d a una matriz 1d (ya sea en orden de fila mayor o de columna principal), debo asignar cada hebra a una fila diferente y calcular el costo de esa fila.

Por ejemplo
- El hilo 1 debe calcular el costo de1 2 3 4
- El hilo 2 debe calcular el costo de4 1 2 3

¿Cómo puedo eso en CUDA?

Gracias a todos por la respuesta.

Respuestas a la pregunta(1)

Su respuesta a la pregunta