Równoległa implementacja wielu SVD przy użyciu CUDA

Jestem nowym użytkownikiem programowania równoległego za pomocą GPU, więc przepraszam, jeśli pytanie jest szerokie lub niejasne. Wiem, że w bibliotece CULA istnieje pewna równoległa funkcja SVD, ale jaka powinna być strategia, jeśli mam dużą liczbę stosunkowo małych macierzy do rozłożenia? Na przykład mamn macierze o wymiarzed, n jest duży id jest mały. Jak zrównoważyć ten proces? Czy ktoś mógłby mi dać podpowiedź?

questionAnswers(3)

yourAnswerToTheQuestion