Параллельная реализация для нескольких SVD с использованием CUDA

Я новичок в параллельном программировании с использованием графического процессора, поэтому я прошу прощения, если вопрос широкий или расплывчатый. Я знаю, что в библиотеке CULA есть некоторая параллельная функция SVD, но какой должна быть стратегия, если у меня есть большое количество относительно небольших матриц для разложения? Например у меняn матрицы с размерностьюd, n большой иd маленький. Как распараллелить этот процесс? Кто-нибудь может дать мне подсказку?

Ответы на вопрос(3)

Ваш ответ на вопрос