Implementación paralela para múltiples SVD usando CUDA

Soy nuevo en la programación paralela usando GPU, así que me disculpo si la pregunta es amplia o vaga. Soy consciente de que hay una función SVD paralela en la biblioteca CULA, pero ¿cuál debería ser la estrategia si tengo un gran número de matrices relativamente pequeñas para factorizar? Por ejemplo tengon matrices con dimensiónd, n es grande yd es pequeño. ¿Cómo paralelizar este proceso? ¿Alguien podría darme una pista?

Respuestas a la pregunta(3)

Su respuesta a la pregunta