Somando as linhas de uma matriz (armazenadas em ordem maior de linha ou coluna maior) em CUDA

Estou trabalhando no problema de somar as linhas de uma matriz em CUDA. Eu estou dando o seguinte exemplo.

Suponha que tenha o seguinte20 * 4 matriz:

1 2 3 4
4 1 2 3
3 4 1 2 
.
1 2 3 4
.
.
.
.
.
.
.
.
2 1 3 4

Depois de achatar a matriz 2d para uma matriz 1d (na ordem principal da linha ou da coluna principal), preciso atribuir cada segmento a uma linha diferente e calcular o custo dessa linha.

Por exemplo
- o thread 1 deve calcular o custo para1 2 3 4
- o segmento 2 deve calcular o custo para4 1 2 3

Como posso isso em CUDA?

Obrigado a todos pela resposta

questionAnswers(1)

yourAnswerToTheQuestion