Суммирование строк матрицы (хранящихся в мажорном порядке или в мажорном столбце) в CUDA

Я работаю над проблемой суммирования строк матрицы в CUDA. Я даю следующий пример.

Предположим иметь следующее20 * 4 массив:

1 2 3 4
4 1 2 3
3 4 1 2 
.
1 2 3 4
.
.
.
.
.
.
.
.
2 1 3 4

После сглаживания 2d-массива в 1d-массив (в порядке основной или основной строки) мне нужно назначить каждый поток в отдельную строку и рассчитать стоимость для этой строки.

Например
- поток 1 должен рассчитать стоимость для1 2 3 4
- поток 2 должен рассчитать стоимость для4 1 2 3

Как я могу это в CUDA?

Спасибо всем за ответ

Ответы на вопрос(1)

Ваш ответ на вопрос